版权归原作者所有,如有侵权,请联系我们

[科普中国]-朴素贝叶斯分类器

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。

简介朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素。朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。对于某些类型的概率模型,在监督式学习的样本集中能获取得非常好的分类效果。在许多实际应用中,朴素贝叶斯模型参数估计使用最大似然估计方法;换而言之,在不用到贝叶斯概率或者任何贝叶斯模型的情况下,朴素贝叶斯模型也能奏效。

尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实情形中仍能够获取相当好的效果。2004年,一篇分析贝叶斯分类器问题的文章揭示了朴素贝叶斯分类器获取看上去不可思议的分类效果的若干理论上的原因。尽管如此,2006年有一篇文章详细比较了各种分类方法,发现更新的方法(如决策树和随机森林)的性能超过了贝叶斯分类器。朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数(变量的均值和方差)。由于变量独立假设,只需要估计各个变量的方法,而不需要确定整个协方差矩阵。

发展朴素贝叶斯自20世纪50年代已广泛研究。在20世纪60年代初就以另外一个名称引入到文本信息检索界中,并仍然是文本分类的一种热门(基准)方法,文本分类是以词频为特征判断文件所属类别或其他(如垃圾邮件、合法性、体育或政治等等)的问题。通过适当的预处理,它可以与这个领域更先进的方法(包括支持向量机)相竞争。它在自动医疗诊断中也有应用。

朴素贝叶斯分类器是高度可扩展的,因此需要数量与学习问题中的变量(特征/预测器)成线性关系的参数。最大似然训练可以通过评估一个封闭形式的表达式来完成,只需花费线性时间,而不需要其他很多类型的分类器所使用的费时的迭代逼近。在统计学和计算机科学文献中,朴素贝叶斯模型有各种名称,包括简单贝叶斯和独立贝叶斯。所有这些名称都参考了贝叶斯定理在该分类器的决策规则中的使用,但朴素贝叶斯不(一定)用到贝叶斯方法;《Russell和Norvig》提到“‘朴素贝叶斯’有时被称为贝叶斯分类器,这个马虎的使用促使真正的贝叶斯论者称之为傻瓜贝叶斯模型。”

贝叶斯方法分类器的构造方法很多,常见的有贝叶斯方法、决策树方法、基于实例的学习方法、人工神经网络方法、支持向量机方法、基于遗传算法的方法、基于粗糙集的方法、基于模糊集的方法等等。其中,贝叶斯方法正以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性等成为众多方法中最为引人注目的焦点之一。分类是一个两步过程。第一步,用已知的实例集构建分类器。这一步一般发生训练阶段或叫学习阶段。用来构建分类器的已知实例集称作训练实例集,训练实例集中的每一个实例称作训练实例。由于训练实例的类标记是已知的,所以分类器的构建过程是有导师的学习过程。相比较而言,在无导师的学习过程中,训练实例的类标记是未知的,有的时候甚至连要学习的类别数也可能是未知的,比如聚类。

第二步,使用构建好的分类器分类未知实例。这一步一般发生测试阶段或叫工作阶段。用来分类的未知实例称作测试实例。一般在分类器被用来预测之前,需要对它的分类精度进行评估。只有分类准确率达到要求的分类器才可以用来对测试实例进行分类。

贝叶斯方法提供了推理的一种概率手段。它假定待考查的变量遵循某种概率分布,且可根据这些概率及己观察到的数据进行推理,从而作出最优的决策。贝叶斯方法不仅能够计算显式的假设概率,还能为理解多数其他方法提供一种有效的手段同。贝叶斯方法的特点主要包括:增量式学习的特点;先验知识可以与观察到的实例一起决定假设的最终概率的特点;允许假设做出不确定性预测的特点;对新实例的分类可由多个假设以它们的概率为权重一起作出预测的特点等等1。

最大似然估计最大似然估计是一种统计方法,它用来求一个样本集的相关概率密度函数的参数。这个方法最早是遗传学家以及统计学家罗纳德·费雪爵士在1912年至1922年间开始使用的。

“似然”是对likelihood 的一种较为贴近文言文的翻译,“似然”用现代的中文来说即“可能性”。故而,若称之为“最大可能性估计”则更加通俗易懂。

最大似然法明确地使用概率模型,其目标是寻找能够以较高概率产生观察数据的系统发生树。最大似然法是一类完全基于统计的系统发生树重建方法的代表。该方法在每组序列比对中考虑了每个核苷酸替换的概率。

例如,转换出现的概率大约是颠换的三倍。在一个三条序列的比对中,如果发现其中有一列为一个C,一个T和一个G,我们有理由认为,C和T所在的序列之间的关系很有可能更接近。由于被研究序列的共同祖先序列是未知的,概率的计算变得复杂;又由于可能在一个位点或多个位点发生多次替换,并且不是所有的位点都是相互独立,概率计算的复杂度进一步加大。尽管如此,还是能用客观标准来计算每个位点的概率,计算表示序列关系的每棵可能的树的概率。然后,根据定义,概率总和最大的那棵树最有可能是反映真实情况的系统发生树。

本词条内容贡献者为:

宋春霖 - 副教授 - 江南大学