版权归原作者所有,如有侵权,请联系我们

[科普中国]-树分类器

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

树分类器是需要通过多级判别才能确定模式所属类别的一种分类方法。多级判别过程可以用树状结构表示,所以称为树分类器。

分类最常用一类树分类器,称为二分树分类器。例如在对0~9十个数字进行识别时,可以先根据某些特征把0,6,8,9,4分成一类(C1),把1,2,3,5,7分成一类(C2),然后根据这些特征或另外一些特征把0,6,8,9,4这一类再分成0,4,8一类 (C3)和4,6,9一类(C4)等,直到最后把各个数字分开为止(见图)。这种树状结构由节点和树枝所组成,它的特点是除了树根C0没有前级节点(父节点)以外,其余节点都有父节点(例如C的父节点是C,且所有的节点都可以从树根沿树枝所组成的路径达到。没有后继节点(子节点)的节点叫作叶,如C8,C10,C11等,其余的叫作非终止节点。每个非终止节点都只有两个子节点的树分类器,

每个终止节点对应一个类别,为了提高树分类器的正确识别率,允许有几个叶对应同一个类别。非终止节点对应的类别是它的子节点所对应的类别的总和。

相关问题树分类器的设计需要解决以下几个问题:

① 确定树的结构。树结构影响正确识别率和平均判别次数,一般根据所研究问题的性质确定某种与正确识别率有联系的目标函数代替正确识别率,作为判断结构是否合理的标准,从树根出发在每个非终止节点寻找使目标函数达到最小(或最大)的子节点和对应的类别配置。

② 对每个非终止节点选择用于判别的特征子集,分枝限界算法能提供选择最佳特征子集的有效方法。

③ 为每个非终止节点确定判别函数,最常用的判别函数是线性判别函数。

由于在每个非终止节点需要判别的类别比较少,在多数情况下,可以用较少的特征和较简单的判别函数(因而较少的计算机时间)以达到总体上比较好的分类效果。

相关研究针对传统分类方法在处理空间特征分布极为复杂的数据时效果不佳的缺点,结合“分层思想”的树分类技术,将广泛用于数据挖掘模型中的CART决策树算法应用到遥感影像分类中,具有更好的弹性和鲁棒性,且分类结构简单明了,达到了更好地分类效果1。

决策树算法是数据挖掘中应用最广的归纳推理算法之一,其构造不需要任何领域知识或参数设置,适合于探测式知识发现。决策树算法具有结构清晰、运行速度快、准确性高以及更好的灵活性和鲁棒性,可以用于处理高维数据,其获取的知识是直观的且容易被人理解。决策树算法已经被广泛的应用于医学、制造和生产、金融分析、天文学、分子生物学以及遥感影像分类等领域2。

遥感影像分类是进行遥感影像解译的主要手段之一,其基本思想是通过对遥感影像中各类地物的光谱、空间、几何、纹理等信息的分析,选择特征,利用一定的手段对影像中的每个像素或者是分割对象进行归类,按照分类对象的不同,可以分为基于像元和面向对象两种。为了减少人工工作量,提高分类效率,最邻近、最大似然、支持向量机、模糊聚类、决策树和神经网络等分类算法作为分类手段被广泛应用于基于像元的分类方法中,同时在面向对象分类中,也使用了最邻近、隶属度函数、支持向量机和决策树等分类算法。

本词条内容贡献者为:

李嘉骞 - 博士 - 同济大学