目标
故障管理的目标是尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别的目标和服务级别质量。
实践中需要基于业务的战略,来制定IT的服务级别的目标和服务质量要求。许多服务商基于自身的资源配置和交付能力来制定服务级别目标,这样做的结果是这些服务并不满足业务的需求,最终导致的结果就是业务与IT矛盾剧增。所以服务的价值需要从客户的角度出发来进行定义。这些质量要求可以是与服务相关的任何要素,通过服务级别管理在服务级别协议(Service Level Agreement,SLA)中进行约定。2
内容故障管理的内容包括故障发现和归一化处理、故障呈现、故障隔离、故障修复和故障的存储与查询。
(1)故障发现和归一化处理:通过故障检测发现故障,并对故障信息进行归一化处理,并保存至故障数据库中。网管系统定义统一的故障级别和故障显示模式。
根据告警的严重程度可以将告警等级分为以下级别:
①严重故障:急待解决的故障,否则子网或设备将无法运行。
②重要故障:设备不能完成其主要功能,影响到部分业务的提供。
③次要故障:设备不能完成其主要功能,但未对其他子网或设备造成影响。
④警告:设备发生局部故障,使其性能降低,但未影响主要业务功能。
⑤已清除。
⑥不确定。
(2)故障呈现:应有图形、故障列表、声音等多种呈现方式。对于不同的故障级别能以不同的颜色显示。一般情况下,以绿色表示正常,淡蓝色表示已清除,深蓝色表示不确定,黄色表示警告,橙色表示次要故障,粉红色表示重要故障,红色表示严重故障,灰色表示脱离管理。应支持管理人员对故障颜色的定制。
(3)故障隔离:应提供故障诊断和综合分析功能,根据采集到的告警信息,进行故障的诊断和综合,确定最终故障点或故障的原因。最后通过远程参数设置进行故障隔离。
(4)故障修复:对可修复的故障,进行人工修复;对不可修复的故障,可重新分配该故障区域的参数设置。
(5)故障的存储与查询:能够将故障设备、故障发生时间、故障修复时间、故障现象和故障可能原因保存到数据库中。此外,可以按照设备类型和故障时间进行故障的查询统计,并可以打印输出或导出到文件中。3
体系结构目前多个组织都在对故障管理体系结构进行积极开拓研究,并开发相关标准用于规范故障管理系统的设计和开发工作。例如,北大两洋公约组织(NATO)在其2005年发布的标准STANAG 4626“模块化开放式航空电子结构”,从宏观和微观两个层面规范了故障管理,在宏观层面,由顶层体系结构ASAAC(00—78)提出了一体化的故障管理需求、原则和框架,在微观层面,ASAAC(00—76)规范了通用功能模块(CFM)的可测试设计,ASAAC(00—74)规范了层次化的健康管理软件结构。ARINC653标准在应用程序接口方面规范了一套健康监控接口。4
使用工具开发或选择什么样的工具,依赖于网络管理的需求和具体的网络环境。
1.简单工具
最简单的工具可以指出故障的存在但不能指明其发生的原因。例如,一个简单的工具可以将ICMP Echo消息发送给计算机网络上的每一个主机和设备以测试其IP网络层的连通性。如果网络没有使用TIP/IP,可以使用一个程序反复试图连接每一个主机和设备的方法来完成同样的测试。工具可以标出每一个失败的连接,并为进一步的查询提供了依据。
2.复杂工具
如果网络上的主机和设备足够复杂到可以报告网络事件,就应该开发一个复杂的工具来利用这种能力。当通过记录网络事件或通过查询检测到一个故障时,这个工具将及时通知给你。同时,通过关键网络事件也可以帮助分离故障发生的原因。
3.高级工具
高级管理工具利用网络管理协议沿着路径对每一设备进行查看,一直到主机B前的最后一个设备(我们假定两台机器都可以与该路径上的每一设备进行通信,但它们之间却无法通信)。工具在这些设备上都没有发现故障,而用户仍然无法通过网络发送电子邮件。这时,工具将在两台机器之间执行一系列新的测试,尽管很费时,但可以检查出许多可能的故障。5