故障恢复技术是指对系统检测到故障后对故障隔离,并选择另一设施或方法使系统回到发生故障前的任务点,使系统继续正常工作所采用的策略、方法和技术。
简介故障恢复技术是指对系统检测到故障后对故障隔离,并选择另一设施或方法使系统回到发生故障前的任务点,使系统继续正常工作所采用的策略、方法和技术。
方法对于永久性故障可采用空间冗余技术,而对瞬态故障则可采用时间冗余技术,直接重复执行,等待故障自行消失,系统恢复正常(对于数据的瞬态错误,则需要采用信息冗余进行实时纠错)1。
重要内容以软件方法对系统的瞬态故障、永久故障,间隙故障和未预料故障的恢复是现代容错技木的重要研究内容。
恢复技术检查点设置与回卷恢复是一种后向恢复技术,即在系统正常运行过程中设置检查点,保存系统当时的一致性状态,并对各进程相关性迸行跟踪和记录,在系统发生故障后,将相关进程回卷到故障前系统的检查点,恢复系统当时的一致性状态后再重新执行。
算法对于高实时性要求的系统,可根据当时任务实时性的排队,动态调度恢复操作的算法,保证高优先级任务首先恢复,推迟优先级较低的任务的恢复。这种按优先级故障恢复技术对军用和空间实时系统很重要2。
本词条内容贡献者为:
任毅如 - 副教授 - 湖南大学