超大型数据库
随着创建的数据量不断增长,为了容纳这些数据,公共和企业数据库也在不断扩张。就在 4 年前,WinterCorp 评定世界最大的数据库是超过 100 TB 的数据仓库。在这项评选的 10 年历史当中,Yahoo! 的一个数据库是首个超过 100 TB 的系统。1
定义没有标准的定义,单纯的大小不再是唯一的评判标准,而只是一个因素。一种比较可行的定义来自 Robert Hollebeek 博士,他是宾西法尼亚大学的物理学教授,与人共创了 National Scalable Cluster Project,多次因在分布式集群系统和数据挖掘方面的工作获得国际大奖。Hollebeek 说,在 5 年前,一个 TB 级数据库就可以算是“超大”数据库,但是,如今的数据库必须是 PB 级的才可以称之为超大。“另一种定义是,如果一个数据库的索引即使是超级计算机或计算机集群的 TB 级物理内存都无法容纳,那么可以称之为超大数据库,”他说。
存在的问题需要那么多索引的数据库的确称得上超大,这种数据库的性能和数据库管理是个很大的问题。
Hollebeek 说,当存放数据所需的硬件总量已成问题时,这样的数据库也可称之为超大数据库:“当您有数千个磁盘单元,或者放并行计算机的架子摆满整个房间时,就变得难以管理了。”
Confederacion Espanola de Cajas de Ahorros(CECA)是西班牙储蓄银行联合会,它的 IBM Information Champion Manuel Gomez Burriel 也认为,易管理性可以将通常意义的“大型”数据与超大数据库区分开来。“通常的管理任务在规定的时间内已经无法完成,” Gomez 说道。恢复一个损坏的数据库需要数小时的时间,然而可用的时间只有数分钟。性能也会受影响, 因为数据库实在太大,数据库中的任何有效部分都无法装入内存中的缓存。仅仅是响应应用程序对数据的请求就会带来难以接受的 CPU 开销。
现状仔细研究一个非常大的数据库,可以从中得出一些教训,这些教训同样适用于其他大的或不那么大的数据库。Hollebeek 是 National Digital Mammography Archive(NDMA)的技术主管,NDMA 是为容纳一个以每年 28 PB 的速度增长的数据库而设计的系统。NDMA 由 美国国立卫生研究院(National Institutes of Health)资助,它建立了一个分布式系统网格,用于医疗记录和图像的存储。 该系统存储乳房摄影检查、MRI 扫描等组成一个“病例”的相关文件,每个病例可能占 1 GB,而这样的病例有数百万个。 除了解决存储和访问大量数据的问题外,NDMA 还必须处理与存储在分布在不同地理位置的系统上的密封式(siloed)数据相关的问题——这是全球企业都存在的一个相同的问题。 为了与四家参与该项目的研究医院建立连接,NDMA 在每家医院安装了加密的、安全的线路和“接入点(point of presence)”,它们是用于加密文件和使用专用网络协议有效发送大块数据的硬件。
“我们的项目规模非常大,而且不能丧失任何医疗数据。我们需要稳定的、高度可靠的技术,这种技术还必须真正快速,并且可以并行,因为系统的结构基于构建并行计算机集群。” Hollebeek 说,“它必须能够容错,因为索引表崩溃或消失是不可容忍的。” NDMA 使用了 IBM DB2 Parallel Edition 软件来存储 数据库索引。NDMA 将实际图像数据存储在并行磁盘矩阵上的平面文件数据库中,由那里用于操作系统(此处为 Linux)的本地文件系统管理。
建议关于处理通过广域网(WAN)连接的超大数据库的几点建议:
注意通过网络(无论是 Internet 还是私有网)发送大量数据的问题。要寻找高效地发送大量数据的方法,例如 在发送和接收位置安装接入点,或者使用发送大型(多 MB)数据块的协议。
不要改变接收的数据的格式。无损的压缩虽好,但是为了在大型数据库中节省少量的空间而重新格式化和存储接收的数据,会导致更多问题,实属不值。例如,对于医疗数据,如果在更改格式时出错,并导致数据不可用,那么就是特别严重的问题。
一旦索引表再也无法装入内存,数据库的性能就会直线下降,所以应该尽量升级内存,以便存放那些表。 然后,利用数据中的任何并行结构,通过聚集有效地增加容量。如果不行,则为索引再建立索引。
超大型数据库系统特点超大型系统的特点为:
1.处理的用户数一般都超过百万,有的还超过千万,数据库的数据量一般超过1TB;
2.系统必须提供实时响应功能,系统需不停机运行,要求系统有很高的可用性及可扩展性。
为了能达到以上要求,除了需要性能优越的计算机和海量存储设备外,还需要先进的数据库结构设计和优化的应用系统。
超大型数据库设计方法
一般的超大型系统采用双机或多机集群系统。下面以数据库采用ORACLE 8.0.6并行服务器为例来谈谈超大型数据库设计方法:
·确定系统的ORACLE并行服务器应用划分策略
·数据库物理结构的设计
·系统硬盘的划分及分配
·备份及恢复策略的考虑
ORACLE并行服务器应用划分策略ORACLE并行服务器允许不同节点上的多个INSTANCE实例同时访问一个数据库,以提高系统的可用性、可扩展性及性能。ORACLE并行服务器中的每个INSTANCE实例都可将共享数据库中的表或索引的数据块读入本地的缓冲区中,这就意味着一个数据块可存在于多个INSTANCE实例的SGA区中。那么保持这些缓冲区的数据的一致性就很重要。ORACLE 使用 PCM( Parallel Cache Management) 锁维护缓冲区的一致性,ORACLE同时通过IDLM( 集成的分布式锁管理器)实现PCM 锁,并通过专门的LCK进程实现INSTANCE实例间的数据一致。
考虑这种情况:INSTANCE1对BLOCK X块修改,这时INSTANCE2对BLOCK X块也需要修改。ORACLE并行服务器利用PCM锁机制,使BLOCK X从INSTANCE 1的SGA区写入数据库数据文件中,又从数据文件中把BLOCK X块读入INSTANCE2的SGA区中。发生这种情况即为一个PING。PING使原来1个MEMORY IO可以完成的工作,变成2个DISK IO和1个 MEMORY IO才能够完成,如果系统中有过多的PING,将大大降低系统的性能。
ORACLE并行服务器中的每个PCM锁可管理多个数据块。PCM锁管理的数据块的个数与分配给一个数据文件的PCM锁的个数及该数据文件的大小有关。当INSTANCE 1和INSTANCE 2要操作不同的BLOCK,如果这些BLOCK 是由同一个PCM 锁管理的,仍然会发生PING。这些PING称为FALSE PING。当多个INSTANCE访问相同的BLOCK而产生的PING是TRUE PING。
合理的应用划分使不同的应用访问不同的数据,可避免或减少TRUE PING;通过给FALSE PING较多的数据文件分配更多的PCM锁可减少 FALSE PING的次数,增加PCM锁不能减少TRUE PING。
所以,ORACLE并行服务器设计的目的是使系统交易处理合理的分布在INSTANCE实例间,以最小化PING,同时合理的分配PCM锁,减少FALSEPING。设计的关键是找出可能产生的冲突,从而决定应用划分的策略。应用划分有如下四种方法:
根据功能模块划分,不同的节点运行不同的应用
根据用户划分,不同类型的用户运行在不同的节点上
根据数据划分,不同的节点访问不同的数据或索引
根据时间划分,不同的应用在不同的时间段运行
应用划分的两个重要原则是使PING最小化及使各节点的负载大致均衡。
数据库物理结构的设计数据库物理结构设计包括确定表及索引的物理存储参数,确定及分配数据库表空间,确定初始的回滚段,临时表空间,redo log files等,并确定主要的初始化参数。物理设计的目的是提高系统的性能。整个物理设计的参数可以根据实际运行情况作调整。
● 表及索引数据量估算及物理存储参数的设置
表及索引的存储容量估算是根据其记录长度及估算的最大记录数确定的。在容量计算中考虑了数据块的头开销及记录和字段的头开销等等。表及索引的initial和next存储参数一般设为相等,pctincrease设为0。
● 表空间的设计
ORACLE数据库的表和索引是透过表空间tablespace存储在数据库中的。在tablespace设计时一般作以下考虑:
一般较大的表或索引单独分配一个tablespace。
Read only对象或Read mostly对象分成一组,存在对应的tablespace中。
若tablespace中的对象皆是read only对象,可将tablespace设置成read only模式,在备份时,read only tablespace只需备份一次。
高频率insert的对象分成一组,存在对应的tablespace中。
增、删、改的对象分成一组,存在对应的tablespace中。
表和索引分别存于不同的tablespace。
存于同一个 tablespace中的表(或索引)的extent 大小最好成倍数关系,有利于空间的重利用和减少碎片。
● DB BLOCK SIZE
超大型数据库DB BLOCK SIZE一般在4KB 至 64KB,而最常用的是8KB、 16KB或32KB。选用较大的DB BLOCK SIZE可使INDEX的高度降低,也会提高IO效率。
● Redo Log Files
ORACLE 使用专用的进程redo log writer (LGWR)将日志写入日志文件。一般日志文件最好建在专用的镜像盘上。日志文件组的个数及文件的大小的设定与系统交易量的大小有关。ORACLE并行服务器中每个INSTANCE使用各自的一组rego log files。一般的每组日志文件的个数为3-7个,每个的大小为200MB-500MB。
● 数据文件大小
建议用标准的文件大小,如200M、1GB、2GB、4GB、8GB等,可简化空间的维护工作。
● 回滚段
回滚段一般建在专用的表空间中。每一个INSTANCE实例拥有各自的回滚段。设置回滚段的一般原则是: initial 及 next 存储参数的值是相等的,同时还是DB BLOCK SIZE的倍数。每个回滚段的minextents设为20,optimal参数的值保证回滚段缩小时不低于20个extents。
● 临时表空间
临时表空间一般建在专用的表空间中。每一个INSTANCE实例拥有各自的临时表空间。这样使用临时表空间时不会有PING。设置临时表空间的initial=next。
系统硬盘的划分及分配在多机集群环境下,ORACLE并行服务器通过操作系统提供的DRD服务来共享同一个数据库。每一个INSTANCE对数据库的数据文件的访问都是通过该数据文件所在的DRD服务进行的。
考虑以下情况:主机1上有DRD服务1,该服务对应的数据文件有1、2、13、35、67等,这时如果主机2上的INSTANCE2需要读取数据文件13,通过DRD服务调度,主机1通过DRD服务访问磁盘阵列上的数据文件13,把INSTANCE2需要的数据读到内存,然后通过MEMORY IO把数据传到主机2的INSTANCE2。写操作是读操作的逆过程。
通过以上分析可知,系统硬盘的划分及分配的原则是尽量减少MEMORY IO。
备份及恢复策略的考虑数据库的备份与恢复在系统设计中占很重要的地位。好的备份及恢复策略可以降低系统的运行风险,减少因硬件故障而造成的损失。2
1.ORACLE备份方法:
物理备份将数据库的物理文件通过操作系统的命令或工具备份到备份介质上。物理备份往往用于存储介质故障时恢复数据库系统的数据。
根据数据库运行方式的不同,可进行不同的物理备份:
a)物理冷备份(offline backup)
物理冷备份要求数据库在关闭(所有INSTANCEs停止)的情况下进行。这种备份必须是完全备份,即需备份所有的数据文件、控制文件(control file)、日志文件(redo log file)、初始参数文件等等。
物理冷备份的步骤简单,但要求系统能够停止。
b)物理热备份(online backup)
物理热备份是在数据库系统正常运行的情况下进行的数据库备份。这种备份可以是数据库的部分备份,既备份数据库的某个表空间(tablespace)或某个数据文件(datafile),也可备份控制文件(control file)。
物理热备份要求数据库在ARCHIVELOG模式下运行。这种备份一般用于应用系统不能停机的情况。
c)归档日志文件备份(archived log file backup)
要使数据库系统能够恢复到故障点前一时刻状态,或恢复到某指定时刻状态,数据库必须采用ARCHIVELOG模式。在ARCHIVELOG模式下,数据库系统会产生归档日志文件(archive log files)。归档日志文件也需备份到备份介质上。在恢复时,这些文件可使数据库恢复到最近状态。
归档日志文件产生在指定目录下,这些文件一生成就可以备份到备份介质上,DBA可根据磁盘空间情况,定时将它们备份出去。
2.逻辑备份
逻辑备份是通过ORACLE提供的Export工具,将数据库的结构定义及其数据卸出到特定格式的文件中,并备份该文件。
在实际应用中,逻辑备份与物理备份并用。一般来说,物理备份用于磁盘介质损坏或数据文件损坏;逻辑备份用于数据库中的某些对象被破坏或用户误操作。
备份策略的考虑主要在以下三个方面:
● 存储空间
● 对现行运行的系统的性能影响
● 恢复时间的影响
如果需要节省空间和恢复时间就需要增加备份的频率,但是备份操作会明显增加现行运行的系统的负载。
ORACLE的恢复方法
根据不同的备份方法采用不同的恢复方法。
使用物理备份恢复
ORACLE提供了三种恢复手段:
1、数据库级的恢复
2、表空间(Tablespace)的恢复
3、数据文件的恢复
数据库级的恢复要求数据库在关闭但Mount的状态下进行。表空间及数据文件的恢复可在数据库运行的状态下进行。
使用逻辑备份恢复
当数据库中的某一对象被损坏,或用户的误操作使数据破坏(如误删表) 时可用逻辑备份恢复。用逻辑备份只能恢复到备份时刻的状态。