版权归原作者所有,如有侵权,请联系我们

[科普中国]-统计学习理论

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

损失函数

期望风险, 经验风险, 结构风险。

VC维统计学习理论是一种研究训练样本有限情况下的机器学习规律的学科。它可以看作是基于数据的机器学习问题的一个特例,即有限样本情况下的特例。

统计学习理论从一些观测(训练)样本出发,从而试图得到一些目前不能通过原理进行分析得到的规律,并利用这些规律来分析客观对象,从而可以利用规律来对未来的数据进行较为准确的预测。例如,对全国未来几年人口数量进行预测,就需要先采集到过去几年甚至几十年的人口数据,并对其变化规律做出统计学方面的分析和归纳,从而得到一个总体的预测模型,这样就可以对未来几年的人口总体走势作一个大概的估计和预测。

显然,这里采集到的过去人口的数据越准确,年份越长,分析归纳得到的统计规律就越准确,对未来人口预测就越接近真实水平。另外,如果只采集到了过去几年的人口数据,那么,这样得到的统计模型无论如何也是不够完美的。

理论研究所以,不难发现,统计学习理论主要是研究以下三个问题:

① 学习的统计性能:通过有限样本能否学习得到其中的一些规律?

② 学习算法的收敛性:学习过程是否收敛?收敛的速度如何?

③ 学习过程的复杂性:学习器的复杂性、样本的复杂性、计算的复杂性如何?

如今,统计学习理论在模式分类、1回归分析、概率密度估计方面发挥着越来越重要的作用。

机器学习统计模式识别问题可以看做基于机器学习的一个特例。而基于机器学习的方法是现代智能技术中十分重要的一个方面,主要研究如何从一些样本出发得出目前不能通过原理分析得到的规律,利用这些规律去分析客观对象,对未来数据或无法观测的数据进行预测。

统计学中关于估计的一致性、无偏性和估计方差的界等,以及分类错误率等渐近性特征是实际应用中往往无法得不到满足,而这种问题在高维空间时尤其如此。这实际上是包含模式识别和神经网络等在内的现有的机器学习理论和方法中的一个根本问题。Viadimir N.Vapnik等人在20世纪60年代就开始研究有限样本情况下的机器学习问题,但由于当时这些研究尚不十分完善,在解决模式识别问题中往往区域保守,且数学上比较艰难,而直到90年代以前并没有提出能够将其理论付诸实现的较好方法。加之当时正处在其它学习方法飞速发展的时期,因此这些研究一直没有得到充分的重视。

直到90年代中,有限样本情况下的2机器学习理论研究逐渐成熟起来,形成了一个较完善的理论体系---统计学习理论。而同时,神经网络等较新兴的机器学习方法的研究则遇到了一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习的难题、局部极小点的问题等。在这种情况下,试图从更本质上研究机器学习问题的统计学习理论逐步得到重视。

评论
科普cuili007
庶吉士级
明白了
2023-01-04