概述
“混合高斯模型”中的“高斯”概率分布函数的曲线呈钟形的正态分布。在一维的情况下,这是一个对称曲线,开始时值很低,然后慢慢增长,在对称中心达到峰值,然后再逐渐衰减。
标准K-均值聚类的模型,该模型产生一些群集,每个群集都有一个中心。一种考虑这个过程的方式是待聚类的数据符合一些基于高斯过程的概率分布,每个概率分布的均值就是群集的中心。这些概率分布给出了以高斯分布的中心作为群集质心的数据出现在空间中每一点的概率值。给定若干高斯分布,每个分布生成一个群集,这就是混合高斯模型名字的由来。2
问题把高斯分布应用到群集检测可能会带来两个问题:
1、高斯分布是一维的,怎么将分布拓展到二维甚至高维?
2、高斯分布是在均值和标准差的基础上定义的——怎么找到合适的均值和标准差?
这些问题很重要,而能够解决这些问题正是混合高斯模型的强大之处。2
多维高斯模型高斯钟形曲线定义了单个变量的概率分布。标准正态分布的曲线均值为0,标准差为1。简单地再加一个变量后的概率分布就变成统计学家所称的联合概率分布。最终的概率图类似于一顶帽子或者一个对称的山峰。
对于正态分布而言,曲线下的面积是有意义的。如果想知道变量取负值的概率是多大,就需要计算一下正态分布曲线下所有负值的面积。由于曲线是对称的,该区域的面积是总面积的50%。
在两维的情况下,就不再是计算曲线下的面积了,而是曲面下的体积。如果想知道两个变量都取负值的概率有多大,就需要计算曲面下两个值都是负数的区域的体积,结果就是总体积的25%。2