故障弱化操作指系统在故障时尽可能多地保存其性能和数据的能力。例如一个典型的传统UNIX系统,当它检测到内核中的数据错误时,给系统控制台产生一个故障信息,并为了以后分析故障,把内存中的内容转储到磁盘,然后终止系统的执行。与之相反,实时系统将尝试改正这个问题或者最小化它的影响并继续执行。一般来说,系统会通知用户或用户进程,它试图进行校正,并且可能在降低了的服务级别上继续运行。当需要关机时,必须维护文件和数据的一致性。1
相关概念故障弱化fail-soft,当一个系统中某个硬件或软件部分发生故障时,对系统配置自动进行调整,尽量减小故障对整个系统运行的影响的一种方法。通常,采用这种方法的系统在遇到故障时,将首先停止那些非必要的功能,使系统性能虽有下降,但仍能继续运行,或者坚持运行一段时间,让使用者有机会观察和排除故障。例如,具有内部保护措施的“不间断数据处理系统”,它在某个部件发生故障的情况下使工作速度明显降低,但仍能继续处理数据。
故障弱化特性fail-soft behavior,控制系统在发生局部故障时,能通过调整自身状态而减弱故障造成的不利影响,维持运行的特性。
故障弱化能力fail-soft capability,一些高可靠性控制系统或信息处理系统(特别是分布式信息处理系统),当发生非关键性故障时,能通过系统重构而避开故障的影响,以降低性能为代价维持运行,保持操作过程的不间断。这种能力称为故障弱化能力。
1
本词条内容贡献者为:
王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所