基本结构
在贝叶斯网络中,两个变量X和Y如果直接相连,则表示它们之间有直接依赖关系,对X的了解会影响关于Y的信度,反之亦然。在这种意义下,我们称信息能够在两个直接相连的节点之间传递。
另一方面,如果两个变量X和Y不直接相连,那么信息需要通过其它变量才能在两者之间传递。如果X和Y之间的所有信息通道都被阻塞,那么信息就无法在它们之间传递。这时,对其中一个变量的了解不会影响对另一个变量的信度,因而和相互条件独立。
如果考虑两个变量X和通Y过第三个变量Z间接相连这一基本情况,则可将贝叶斯网络分解成三种基本的结构,即顺连、分连和汇连1。
构造方式一般情况下,构造贝叶斯网有三种不同的方式:
(1)由领域专家确定贝叶斯网的变量(有时也称为影响因子)节点,然后通过专家的知识来确定贝叶斯网络的结构,并指定它的分布参数。这种方式构造的贝叶斯网完全在专家的指导下进行,由于人类获得知识的有限性,导致构建的网络与实践中积累下的数据具有很大的偏差。
(2)由领域专家确定贝叶斯网络的节点,通过大量的训练数据,来学习贝叶斯网的结构和参数。这种方式
完全是一种数据驱动的方法,具有很强的适应性,而且随着人工智能、数据挖掘和机器学习的不断发展,使得这种方法成为可能。如何从数据中学习贝叶斯网的结构和参数,已经成为贝叶斯网络研究的热点。
(3)由领域专家确定贝叶斯网络的节点,通过专家的知识来指定网络的结构,而通过机器学习的方法从数据中学习网络的参数。这种方式实际上是前两种方式的折衷,当领域中变量之间的关系较明显的情况下,这种方法能大大提高学习的效率。
优点通过提供图形化的方法来表示和运算概率知识,贝叶斯网络克服了基于规则的系统所具有的许多概念上和计算上的困难。贝叶斯网络与统计技术相结合,使得其在数据分析方面拥有了许多优点,与规划挖掘、决策树、人工神经网络、密度估计、分类、回归和聚类等方法相比,贝叶斯网络的优点主要体现在:
(1)贝叶斯网络使用图形的方法描述数据间的相互关系,语义清晰,易于理解。图形化的知识表示方法使得保持概率知识库的一致性和完整性变得容易,可以方便地针对条件的改变进行网络模块的重新配置。
(2)贝叶斯网络易于处理不完备数据集。对于传统标准的监督学习算法而言必须知道所有可能的数据输入,如果缺少其中的某一输入就会对建立的模型产生偏差,贝叶斯网络的方法反映的是整个数据库中数据间的概率关系模型,缺少某一数据变量仍然可以建立精确的模型2。
(3)贝叶斯网络允许学习变量间的因果关系。在以往的数据分析中,一个问题的因果关系在干扰较多时,系统就无法做出精确的预测。而这种因果关系己经包含在贝叶斯网络模型中。贝叶斯方法具有因果和概率性语义,可以用来学习数据中的因果关系,并根据因果关系进行学习。
(4)贝叶斯网络与贝叶斯统计相结合能够充分利用领域知识和样本数据的信息。贝叶斯网络用弧表示变量间的依赖关系,用概率分布表来表示依赖关系的强弱,将先验信息与样本知识有机结合起来,促进了先验知识和数据的集成,这在样本数据稀疏或数据较难获得的时候特别有效。