级联失效时空传播特性指级联失效过程中故障传播的时空规律。级联失效的时空传播行为描述了级联失效在时间和空间的动态演化过程,重点在于研究故障传播的空间路径和时间特点。
简介级联失效是指系统的元件故障会引起一系列的其他故障,并有可能传播到整个系统。如美加大停电、城市拥堵、因特网瘫痪等例子说明,级联失效已经成为网络系统的主要故障模式。对级联失效过程中故障传播的时空规律,即级联失效时空传播特性的研究也显得尤为重要。
级联失效研究现状级联失效是一种可以引发一系列失效,并最终在整个系统中导致故障传播的网络故障模式。其潜在的风险和灾难性的后果促使许多领域投人大量精力探究级联失效,从而提出规避风险以及降低级联失效灾难性后果的新措施。有关级联失效的研究主要集中在三个方面:临界条件、故障机理和实证统计。
网络的故障过程可以看成是典型的相变过程,相变的临界点标志着网络的整体失效。分析网络故障的临界点,对于预测级联失效的发生,指导网络系统的可靠性设计等有积极意义。网络故障的临界性分析一般基于渗流理论,通过建立网络节点之间的故障依赖显性关系,分析整个网络功能对各类风险的容忍能力。研究通常假设各类故障依赖关系的拓扑结构和数量,并量化这些因素对网络弹性的影响能力。对于单个网络,网络的渗流临界值取决于网络中故障依赖边的分布和比例。而对于耦合网络,在网络间的耦合拓扑关系确定的情况下,渗流临界值取决于祸合网络的数量。
在故障机理的研究中,重点在于对网络级联失效的原理进行建模,得到可以较好刻画实际网络级联失效过程的模型。例如,过载是一种较常见的级联失效故障机理,主要发生在电力网络、交通网络等有流量运输任务的网络。在这些网络中,如果网络某个节点上的流量超过其阑值,那么将导致此节点上流量的重新分配,进而加剧了其他节点的负载压力,并可能引发这些节点过载失效,最终形成故障传播。在复杂网络研究中,主要通过用网络节点的介数来模拟流量,进而对由过载导致的级联失效进行建模,主要的模型包括:Motter-Lai模型、Crucitti模型和OPA模型等。在这些模型中,Motter-Lai模型被广泛用于抽象模拟各类网络的级联失效过程,同时忽略了许多特殊的网络运行和管理细节。OPA模型则主要针对模拟电力网络中的级联失效过程,并考虑了许多的电力网络运行特点。
级联失效的空间规律要做到有效的实时故障传播控制,就必须研究故障传播的时空规律,从根本上对故障传播的行为进行掌握。大部分的研究集中在临界条件、故障机理和实证统计三个方面,而级联失效的传播行为尚未得到充分研究。级联失效中,故障的时空传播行为描述了级联失效在时间和空间的动态演化过程,重点在于研究故障传播的空间路径和时间特点。
已有的模型大都假设故障之间是近邻传播,即一个节点的故障会传播给其一阶近邻(与此节点有连边的节点)。而这里发现的这种故障间呈现长程相关的特点意味着节点间的故障具有大范围的联动关系,一个节点的故障不仅仅会影响附近的节点,也会影响和其相距较远的节点。而且这种联系会使故障聚集,并出现集团特征。虽然交通系统和电力网络的控制模式和故障管理方式不同,但这两个系统在级联失效上却表现出相似的故障长程相关特点,说明故障传播空间特点的普适性和背后的共同失效机理。基于渗流方法,Li D1进一步通过应用过载模型揭示了这类系统的级联失效机理,发现这种在实际数据观察到的故障长程相关性只有在模型的临界点处才会出现,如果系统远离自身的相变临界点,那么故障之间的相关性范围会大大缩短。这也再次证实了实际系统是处于其自组织临界点运行的发现。
级联失效的时间特点除了故障传播的空间路径外,有研究关注了故障传播的时间特点。在时间维度上,故障传播通常被看作是一种分支过程:最初的故障(树的根节点)会引发更多的故障(树的叶子节点),形成故障树,故障树的大小即为总故障规模。最初的故障后,随着时间的增加,每一个级联阶段故障的数目如果不减少(分支指数不小于1),那么就会形成大规模的级联失效。在网络的故障过程中,网络的最大连通子团(系统中保持连接的最大节点集合)会由于失效的节点逐渐减小,并最终崩溃,导致系统整体失效。而在耦合网络的失效过程中,研究发现系统处在临界点时,其最大连通子团在减小的过程中,会有一段非常缓慢的过程(子团大小降低的速度非常慢),被称作“平台期”。在这个平台期之后,最大子团的大小急剧降低,系统迅速崩溃。系统崩溃持续的整个过程叫做故障时间,在临界点处,系统的故障时间会发散,不存在一个特征时间。研究发现,这些系统故障的时间特点是由于故障的分支过程中形成的故障树的大小呈现一个幂律的分布(指数为-1.5)。
如果将网络比喻为森林,那么故障传播就是森林火灾。只有理解了火灾的传播规律,才能更好地制定灭火策略。上述关于故障传播规律的发现可以为网络可靠性工程提供借鉴,也可以支撑未来的智慧工程。随着工业化和信息化的深度融合,越来越多的物理系统与信息系统耦合起来,形成信息物理融合系统(CPS)。原本只在某一单一空间传播的故障,由于信息物理空间的耦合,故障传播的方式也将会有根本性的转变,成为系统运行和管理的极大风险。在理解信息物理系统的特点基础上,有针对性地研究这些系统的特有故障传播规律,建立基于故障传播的可靠性模型,是研究信息物理系统可靠性的基础问题。2
本词条内容贡献者为:
张磊 - 副教授 - 西南大学