在预测分析和机器学习的概念漂移表示目标变量的统计特性随着时间的推移以不可预见的方式变化的现象。随着时间的推移,模型的预测精度将降低。
该术语的概念指的是要被预测的目标变量。更一般地,它也可以指其他感兴趣的现象之外的目标的概念,诸如输入,但是在概念漂移的上下文中,术语通常指的是目标变量。
例子在欺诈检测应用程序中,目标概念可以是具有值“是”或“否”的二进制属性FRAUDULENT,其指示给定交易是否是欺诈性的。或者,在天气预报应用中,可能存在若干目标概念,例如TEMPERATURE,PRESSURE和HUMIDITY。
在线商店中的客户的行为可能随时间而改变。例如,如果要预测每周的商品销售,并且已经开发出令人满意的预测模型。该模型可以使用诸如广告花费的金额,正在运行的促销以及可能影响销售的其他指标等输入。随着时间的推移,模型可能变得越来越不准确 - 这就是概念漂移。在商品销售应用中,概念漂移的一个原因可能是季节性,这意味着购物行为会季节性变化。例如,冬季假期的销售额可能高于夏季。
可能的补救措施为了防止由于概念漂移导致的预测精度的恶化,可以采用有源和无源解决方案。主动解决方案依赖于触发机制,例如变化检测测试(Basseville和Nikiforov 1993; Alippi和Roveri,2007),以明确地将概念漂移检测为数据生成过程统计数据的变化。在静止条件下,可以集成任何可用的新信息来改进模型。不同的是,当检测到概念漂移时,当前模型不再是最新的,必须用新的模型替换以保持预测准确性(Gama等,2004; Alippi等,2011)。相反,在被动解决方案中,模型不断更新,例如,通过在最近观察到的样本上重新训练模型(Widmer和Kubat,1996),或强制执行一组分类器(Elwell和Polikar 2011)。
软件RapidMiner(以前的YALE(又一个学习环境)):用于知识发现,数据挖掘和机器学习的免费开源软件,还具有数据流挖掘,学习时变概念和跟踪漂移概念(如果与其结合使用) 数据流挖掘插件(原名:概念漂移插件)1。
EDDM(EDDM(早期漂移检测方法)):Weka(机器学习)中漂移检测方法的免费开源实现。
MOA(大规模在线分析):免费的开源软件,专门用于挖掘具有概念漂移的数据流。 它包含一个前序评估方法,EDDM概念漂移方法,ARFF真实数据集的读者,以及作为SEA概念的人工流生成器,STAGGER,旋转超平面,随机树和基于随机半径的函数。 MOA支持与Weka(机器学习)的双向交互。
本词条内容贡献者为:
王慧维 - 副研究员 - 西南大学