版权归原作者所有,如有侵权,请联系我们

[科普中国]-故障容许度

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

故障容许度(英语:Fault tolerance)也称容错、容错性,是使系统在部分组件(一个或多个)发生故障时仍能正常运作的能力。

简介故障容许度(英语:Fault tolerance)也称容错、容错性,是使系统在部分组件(一个或多个)发生故障时仍能正常运作的能力。

如果系统的运行质量全面降低,降低的幅度与故障程度成正比,相反的,设计时未考虑故障容许度的系统,在发生很小的故障时也可能完全故障。高可用性或生命攸关系统中尤为追求容错。

系统部分故障时维护功能的能力被称为优雅降级、柔性降级1或从容退化(graceful degradation)。

相关概念故障容许与极少故障的系统是不同概念。例如,西部电气交叉开关系统的失效率为每四十年两小时,因此具有高度的防故障能力。

但当故障发生时,它们将完全停止运行,因此并无故障容许2。

衡量指标故障容许度,是指软件检测应用程序所运行的软件或硬件中发生的错误并从错误中恢复的能力。

通常可以从以下几个方面来衡量:

1.系统的可靠性

2.系统的可用性

3.系统的可测性等

可靠性对于火箭发射之类关键性应用领域来说尤为重要。

而对于通用计算机来说,一个重要的指标就是系统的可用性。

可用性可用性是指在一年的时间中确保系统不失效的时间比率。

可测性可测性在容错系统的设计过程中也是一个非常重要的指标,如果我们无法对某个系统进行测试,又如何能保证它不出问题呢?此外还有MTBF(故障间的平均时间),即当系统正常运行后能坚持多长时间不失效。

可靠性MTTR(故障修理的平均时间),即指系统要清除故障所需的时间。MTTR的大小直接影响着系统的可用性,而MTBF则反映了系统的可靠性。

举例故障容许度即是Fault Tolerance,确切地说是容故障(Fault),而并非容错误(Error)。

例如在双机容错系统中,一台机器出现问题时,另一台机器可以取而代之,从而保证系统的正常运行。在早期计算机硬件不是特别可靠的情况下,这种情形比较常见。

现在的硬件虽然较之从前稳定可靠得多,但是对于那些不允许出错的系统,硬件容错仍然是十分重要的途径。

本词条内容贡献者为:

程鹏 - 副教授 - 西南大学