版权归原作者所有,如有侵权,请联系我们

[科普中国]-广义期望最大算法

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

基本思想

广义期望最大算法的基本思想是首先在给出缺失数据初值的条件下估计出参数值,然后根据参数值估计出缺失数据的值;再根据估计出的缺失数据值对参数值进行更新,如此反复迭代直至收敛。所谓存在缺失数据可以有两种解释,一种情况是由于问题本身的不合理或观测条件的限制导致观测数据存在缺失变量,另一种情况是缺失变量本身并不存在,但是观测数据的似然函数优化比较复杂,而如果添加额外的隐(hidden)变量或潜在变量后的完全数据似然估计则比较简单。1

算法种类狭义期望最大算法EM(Expectatioin-Maximalization)算法即期望最大算法,被誉为是数据挖掘的十大算法之一。它是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测到的隐变量。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),也就是将隐藏变量象能够观测到的一样包含在内,从而计算最大似然的期望值;另外一步是最大化(M),也就是最大化在E步上找到的最大似然的期望值从而计算参数的最大似然估计。M 步上找到的参数然后用于另外一个E步计算,这个过程不断交替进行。对于信息缺失的数据来说,EM算法是一种极有效的工具。

K均值算法K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。

其中,k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。如果在一次迭代前后,J的值没有发生变化,说明算法已经收敛。2

算法过程如下:

1)从N个文档随机选取K个文档作为质心。

2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类。

3)重新计算已经得到的各个类的质心。

4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束。

隐马尔科夫模型隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。自20世纪80年代以来,HMM被应用于语音识别,取得重大成功。到了90年代,HMM还被引入计算机文字识别和移动通信核心技术“多用户的检测”。HMM在生物信息科学、故障诊断等领域也开始得到应用。

在简单的马尔可夫模型(如马尔可夫链),所述状态是直接可见的观察者,因此状态转移概率是唯一的参数。在隐马尔可夫模型中,状态是不直接可见的,但输出依赖于该状态下,是可见的。每个状态通过可能的输出记号有了可能的概率分布。因此,通过一个HMM产生标记序列提供了有关状态的一些序列的信息。注意,“隐藏”指的是,该模型经其传递的状态序列,而不是模型的参数;即使这些参数是精确已知的,我们仍把该模型称为一个“隐藏”的马尔可夫模型。隐马尔可夫模型以它在时间上的模式识别所知,如语音,手写,手势识别,词类的标记,乐谱,局部放电和生物信息学应用。

隐马尔可夫模型可以被认为是一个概括的混合模型中的隐藏变量(或变量),它控制的混合成分被选择为每个观察,通过马尔可夫过程而不是相互独立相关。最近,隐马尔可夫模型已推广到两两马尔可夫模型和三重态马尔可夫模型,允许更复杂的数据结构的考虑和非平稳数据建模。

优缺点优点GEM算法的优点很明显,主要表现在以下几个方面:

它所涉及理论的简单化和一般性。

在大多数情况下,它实质上是一个优化算法,并且能够收敛到局部极值。

许多的应用都能纳入到EM算法的范畴,EM算法成为统计学上的—个标准工具。当完全数据来源于一个指数分布族时,极大似然估计计算就比较简单,算法的每一个极大化的计算也比较简单。

缺点1. GEM算法会收敛到局部极值,但不保证收敛到全局最优解。

2. 对初值敏感:广义期望最大算法通常需要一个好的、快速的初始化过程如矩方法得到的结果在GMM中,用 K-means聚类。

3. 适合的情况:缺失数据不太多时、数据维数不太高时。3

模态分析中的应用模态分析技术能够有效的提取出固有频率、模态振型、模态阻尼等模态参数,为解决机械振动方面的问题提供了重要手段。在传统的模态分析方法中,实验模态分析占据着主流地位,得到了广泛的应用。实验模态分析方法的优点是已知输入信号和输出信号,可以较为准确的求解出系统的模态参数。然而,在实际工程应用中,各种机械设备所受工作载荷和外界环境的激励,这些因素的输入信号很难测量。因此,工作模态分析方法凭借其只通过测量系统的输出响应来进行模态参数的识别的优势,如今在工程实际中越来越被重视。

期望最大化算法(算法)是一种用于最大可能性估计的全目标算法,在统计学上拥有一些最佳属性。期望最大化算法在计算最大似然估计中应用的非常广泛,它的使用过程中包括了步骤(估算条件期望)和步骤(最大化条件期望),如此形成一个循环迭代的步骤,最终达到收敛。期望最大化算法在很多领域中都有应用,如心理学,环境学,天文学等。当使用期望最大化算法来计算模态参数时,算法初始值的选取非常重要,初始值选取的合适与否直接决定了识别结果的精度。在本文的研宄中,期望最大化算法的初始值选取随机子空间法(法)的结果,因为随机子空间法得出的分析结果是接近全局最大值的,因此在此基础上再使用算法可以将结果收敛到全局最大值上,防止结果在局部最大值上收敛。

此外,应用期望最大化算法计算模态参数时,还可以选择随机点作为其初始值,此种方法较为轻松、快捷,每个随机起点提供了一组估计模型,如果一个模式是由多个起始点表达的,可以作为系统的模型。4