灾难备份技术是指为了降低灾难发生的概率以及灾难发生时或发生以后造成的损失而采取的各种防范措施。为了对灾难进行恢复,灾难备份一般会对数据、数据处理系统、网络系统、基础设施、技术支持能力和运行管理能力进行备份。灾难备份的主要目标是保护数据和系统的完整性,使业务数据损失最少甚至没有业务数据损失。1
简述对灾难的定义众说纷纭,尚无统一的认识。这里,我们引用2005年中华人民共和国国务院颁布的《重要信息系统灾难恢复指南》中的定义,灾难是指由于人为或自然的原因,造成系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发事件。
《指南》把灾难恢复定义为:“将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态而设计的活动和流程。”而把灾难备份定义为:“为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、技术支持能力和运行管理能力进行备份的过程。”显而易见,灾难恢复比灾难备份的外延要大。因此,对国内惯用的“灾难备份”一词,今后要搞清其所指的确切含义后再准确应用。例如,人们所说的“灾难备份”,如果是指既包括技术,也包括业务、管理的周密的系统工程,则应改为“灾难恢复”才更为精确。
真正的灾难备份必须满足3个要素:一是系统中的部件、数据都具有冗余性,即一个系统发生故障,另一个系统能够保持数据传送的顺畅;二是具有长距离性,因为灾害总是在一定范围内发生,因而保持足够长的距离才能保证数据不会被同一个灾害全部破坏;三是灾难备份系统追求全方位的数据复制,上述三要素也称为“3R”(Redundance,Remote,Replication)。2
主要技术一个完整的灾难备份系统主要由数据备份系统、备份数据处理系统、备份通信网络系统和完善的灾难恢复计划组成。在灾难备份系统建设中,数据备份是关键,如何将数据(包括系统、应用和业务等数据)完整、实时地复制到灾难备份中心,是灾难备份系统建设中首先要考虑的重点。
1)数据备份技术
(1)基于磁盘系统的灾难备份技术
基于磁盘系统的远程数据备份技术是以磁盘系统为基础,采用硬件数据复制技术,借助磁盘控制器提供的功能,通过专线实现物理存储器之间的数据交换。它采用磁盘镜像技术在物理磁盘卷这一级上实现两地磁盘机之间的数据复制。这种方式的优点是:独立于主机和主机操作系统,不占用主机的CPU、主机通道和网络资源,对主机透明,也不需要对现有应用系统作任何改动。
(2)基于软件方式的灾难备份技术
软件方式的灾难备份技术是基于操作系统级的灾难备份解决方案。其特点是与操作系统平台相关,而对应用程序是透明的。此方式通过通信网络,实现数据在两个不同地点之间的实时备份。
2.数据的存储备份技术
数据的存储备份技术是灾难备份的另一关键技术。其中,存储优化是提高灾难备份系统性能的重要指标之一。常用的存储优化技术有直接连接存储(Direct AttachedStorage,DAS)、网络连接存储(Network Attached Storage,NAS)和存储区域存储(StorageArea Network,SAN)。
1)DAS存储结构
DAS又称SAS(Server Access Storage),是大部分园区网采用的存储方式。在DAS中,数据被存储在各服务器的磁盘族或磁盘阵列等存储设备中。
2)NAS存储结构
开发NAS的目的是以不消耗大量网络带宽而实现存储功能,这种存储结构可完全脱离服务器直接上网。
3)SAN存储结构
SAN是用于连接服务器和存储装置(大容量磁盘阵列和备份磁带库)的专用网络。这种连接是基于固有的光纤通道FC(Fiber Channel)和SCSI技术,通过SCSI到光纤通道转种特殊的高速网络。如果把LAN作为第一网络,则SAN就是第二网络,它置于LAN之下,但又不涉及LAN的具体操作。3
建立步骤灾难备份建设的基本流程和步骤如下:
(1)建立灾难备份专门机构。
实施灾难备份应由董事会或高级管理层决策,指定高层管理人员组织实施。由科技、业务、财务、后勤支持等与灾难备份相关的部门组成专门机构,主要职责包括分析灾难备份需求,制定灾难备份方案;确定工程预算,监督工程实施;明确各部门的职责,协调各部门关系;对灾难恢复计划定期进行测试和评估;对测试和评估的结果进行审核和存档并做出相应的改进。
(2)分析灾难备份需求。
重要信息系统灾难备份需求分析应包括对数据处理中心的风险分析和对重要信息系统的业务分析,以确定灾难恢复目标。数据处理中心风险分析的内容包括分析数据处理中心的风险,如物理安全,数据安全,人为因素,已有的备份和恢复系统、基础设施脆弱点,数据处理中心位置,关键技术点等;明确防范风险的技术与管理手段;确定需要采取灾难恢复的类型,如灾难备份中心的距离,数据备份方式和频率等。业务分析的内容包括各项业务停业将造成的损失,须考虑流失客户、损失营业额、企业形象、法律纠纷、社会安定因素等;每项业务停顿的最大容忍时间;各项业务的恢复优先级;各项业务的相关性;可接受的交易丢失程度。灾难恢复目标主要有确定恢复业务品种范围及优先级、确定灾难备份中心及服务界面的恢复时限、确定需要恢复的服务网点和服务渠道。
(3)制定灾难备份方案。
灾难备份方案分为多个等级。一个完整的灾难备份方案的设计基于灾难备份需求分析所得出的各业务系统灾难恢复目标,它可能涉及多个级别的应用,并且需要考虑技术手段、投资成本、管理方式等多方面因素。
(4)实施灾难备份方案。
实施灾难备份方案的主要目标是按照所制定的灾难备份方案,完成灾难备份工作。实施过程中,要严格按照灾难备份方案的要求和内容进行,要落实相应的规章制度,要应用灾难备份方案,建设并运行灾难备份中心。
(5)制定灾难恢复计划。
制定灾难恢复计划的主要目的是规范灾难恢复流程,使重要信息系统在灾难发生后能够快速地恢复数据处理系统运行和业务运作;同时重要信息系统可以根据灾难恢复计划对其数据处理中心的灾难恢复能力进行测试,并将灾难恢复计划作为相关人员的培训资料之一。
(6)保持灾难恢复计划持续可用。
在灾难恢复计划制定后,为保证计划的可用性和完整性,需要制定变更管理流程、定期审核制度和定期演练制度。1
当前现状在美国,容灾应用在各行各业中。首先,政府在企业法中对企业容灾有要求;其次,由于公司内部管理、客户资料等数据都保存在计算机中,数据是公司的财富。无论银行、工厂,只要企业中有系统,不管系统大小,都会有容灾计划,哪怕计划很简单。由于美国曾经历了多次灾难的打击,容灾已被人们认为是系统必不可少的一部分,是每个公司都要做的关键事情。
我国香港特别行政区也针对不同行业的特点,对容灾、数据备份进行了严格的规定。但在国内,对这部分的要求还很少,只有一些粗线条的法规。比如说,要求电信部门的数据在机器上保留3个月,数据保存两年。然而现实中,到底该将数据如何保存、保存多久、各行业对此有何不同、数据量大小等具体运作方式,没有明确规定。
企业容灾系统建好后,工作并没有结束。美国的企业法规定,企业将根据所属行业,每年做一次甚至几次的灾备演练,并做一次系统回顾。因为系统有可能会改变,系统的变化可能使原来的方案不再适合,因此,每年要把文档再补充完整,并演习每个步骤。我国香港也要求银行系统在每周六做容灾切换作业,以防灾难突然发生。2
本词条内容贡献者为:
王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所