版权归原作者所有,如有侵权,请联系我们

[科普中国]-基于特征选择方法

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

特征选择是为了构建模型而选择相关特征(即属性、指标)子集的过程。基于特征选择方法是识别出源领域与目标领域中共有的特征表示和重要特征,然后利用这些特征进行知识迁移应用到目标领域。基于特征选择方法可以简化模型,使之更易于被研究人员或用户理解和改善通用性、降低过拟合。

简介基于特征选择方法是使用特征选择有关方法从识别出源领域与目标领域重要或高度相关的特征,移除许多冗余或无关的特征,然后将高度相关特征应用到目标问题(冗余或无关特征是两个不同的概念。如果一个特征本身有用,但如果这个特征与另一个有用特征强相关,且那个特征也在数据出现,那么这个特征可能就变得多余)。因为与样本类别高度相关的那些特征应该在训练得到的模型中被赋予更高的权重。基于特征选择方法是一种两阶段的特征选择框架。第一阶段首先用特征选择算法选出所有领域(包括源领域和目标领域)共有的特征来训练一个通用的分类器; 然后从目标领域无标签样本中选择特有特征来对通用分类器进行精确化从而得到适合于目标领域数据的分类器。于是,类别信息以及知识通过这些共有的特征从源领域传到目标领域1。

特征选择方法特征选择算法可以被视为搜索技术和评价指标的结合。前者提供候选的新特征子集,后者为不同的特征子集打分。 最简单的算法是测试每个特征子集,找到究竟哪个子集的错误率最低。这种算法需要穷举搜索空间,难以算完所有的特征集,只能涵盖很少一部分特征子集。 选择何种评价指标很大程度上影响了算法。而且,通过选择不同的评价指标,可以把特征选择算法分为三类:包装类、过滤类和嵌入类方法:

包装类方法使用预测模型给特征子集打分。每个新子集都被用来训练一个模型,然后用验证数据集来测试。通过计算验证数据集上的错误次数(即模型的错误率)给特征子集评分。由于包装类方法为每个特征子集训练一个新模型,所以计算量很大。不过,这类方法往往能为特定类型的模型找到性能最好的特征集。

过滤类方法采用代理指标,而不根据特征子集的错误率计分。所选的指标算得快,但仍然能估算出特征集好不好用。常用指标包括互信息、逐点互信息、皮尔逊积矩相关系数、每种分类/特征的组合的帧间/帧内类距离或显著性测试评分。过滤类方法计算量一般比包装类小,但这类方法找到的特征子集不能为特定类型的预测模型调校。由于缺少调校,过滤类方法所选取的特征集会比包装类选取的特征集更为通用,往往会导致比包装类的预测性能更为低下。不过,由于特征集不包含对预测模型的假设,更有利于暴露特征之间的关系。许多过滤类方法提供特征排名,而非显式提供特征子集。要从特征列表的哪个点切掉特征,得靠交叉验证来决定。过滤类方法也常常用于包装方法的预处理步骤,以便在问题太复杂时依然可以用包装方法。

嵌入类方法包括了所有构建模型过程中用到的特征选择技术。这类方法的典范是构建线性模型的LASSO方法。该方法给回归系数加入了L1惩罚,导致其中的许多参数趋于零。任何回归系数不为零的特征都会被LASSO算法“选中”。LASSO的改良算法有Bolasso和FeaLect。Bolasso改进了样本的初始过程。FeaLect根据回归系数组合分析给所有特征打分。 另外一个流行的做法是递归特征消除(Recursive Feature Elimination)算法,通常用于支持向量机,通过反复构建同一个模型移除低权重的特征。这些方法的计算复杂度往往在过滤类和包装类之间。

传统的统计学中,特征选择的最普遍的形式是逐步回归,这是一个包装类技术。它属于贪心算法,每一轮添加该轮最优的特征或者删除最差的特征。主要的调控因素是决定何时停止算法。在机器学习领域,这个时间点通常通过交叉验证找出。在统计学中,某些条件已经优化。因而会导致嵌套引发问题。此外,还有更健壮的方法,如分支和约束和分段线性网络。

分类器分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。分类器的构造和实施大体会经过以下几个步骤:

选定样本(包含正样本和负样本),将所有样本分成训练样本和测试样本两部分。

在训练样本上执行分类器算法,生成分类模型。

在测试样本上执行分类模型,生成预测结果。

根据预测结果,计算必要的评估指标,评估分类模型的性能。

知识迁移知识迁移,也称学习迁移是一种学习对另一种学习的影响,是在学习这个连续过程中, 任何学习都是在学习者已经具有的知识经验和认知结构、已获得的动作技能、习得的态度等基础上进行的。学习迁移的发生,取决于学习任务和迁移任务的同一性,又称为'共同要素'。学习迁移与 问题解决之间有密切的关联,因为学习迁移通常发生于先前知识应用于解决新情境下的问题

本词条内容贡献者为:

李岳阳 - 副教授 - 江南大学