版权归原作者所有,如有侵权,请联系我们

[科普中国]-监督式学习

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

监督式学习(英语:Supervised learning),是一个机器学习中的方法,可以由训练资料中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

定义监督式学习(英语:Supervised learning),是一个机器学习中的方法,可以由训练资料中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。1

一个监督式学习者的任务在观察完一些训练范例(输入和预期输出)后,去预测这个函数对任何可能出现的输入的值的输出。要达到此目的,学习者必须以"合理"的方式从现有的资料中一般化到非观察到的情况。在人类和动物感知中,则通常被称为概念学习(concept learning)。

模型监督式学习有两种形态的模型。最一般的,监督式学习产生一个全域模型,会将输入物件对应到预期输出。而另一种,则是将这种对应实作在一个区域模型。(如案例推论及最近邻居法)。为了解决一个给定的监督式学习的问题(手写辨识),必须考虑以下步骤:决定训练资料的范例的形态。在做其它事前,工程师应决定要使用哪种资料为范例。譬如,可能是一个手写字符,或一整个手写的词汇,或一行手写文字。 搜集训练资料。这资料须要具有真实世界的特征。所以,可以由人类专家或(机器或传感器的)测量中得到输入物件和其相对应输出。

决定学习函数的输入特征的表示法。学习函数的准确度与输入的物件如何表示是有很大的关联度。传统上,输入的物件会被转成一个特征向量,包含了许多关于描述物件的特征。因为curseofdimensionality的关系,特征的个数不宜太多,但也要足够大,才能准确的预测输出。

数据结构决定要学习的函数和其对应的学习算法所使用的数据结构。譬如,工程师可能选择人工神经网络和决策树。完成设计。工程师接着在搜集到的资料上跑学习算法。可以借由将资料跑在资料的子集(称为验证集)或交叉验证(cross-validation)上来调整学习算法的参数。参数调整后,算法可以运行在不同于训练集的测试集上,另外对于监督式学习所使用的词汇则是分类。现著有著各式的分类器,各自都有强项或弱项。分类器的表现很大程度上地跟要被分类的资料特性有关。并没有某一单一分类器可以在所有给定的问题上都表现最好,这被称为‘天下没有白吃的午餐理论’。各式的经验法则被用来比较分类器的表现及寻找会决定分类器表现的资料特性。决定适合某一问题的分类器仍旧是一项艺术,而非科学。

分类器目前最广泛被使用的分类器有人工神经网络、支持向量机、最近邻居法、GuassianMixtureModel、Gaussian、NaiveBayes、决策树和RBFclassifiers。

主动式学习一个情况是,有大量尚未标示的资料,但去标示资料则是很耗成本的。一种方法则是,学习算法会主动去向使用者或老师去询问标签。这种形态的监督式学习称为主动式学习。既然学习者可以选择例子,学习中要使用到的例子个数通常会比一般的监督式学习来得少。以这种策略则有一个风险是,算法可能会专注在于一些不重要或不合法的例子。

策略和算法人工神经网络

案例推论

决策树学习

最近邻居法

支持向量机

随机森林

应用生物资讯学

化学资讯学

定量构效关系

手写辨识

资讯检索

电脑视觉中的物件识别

光学字元识别

侦测垃圾邮件

模式识别

语音识别

预测虚假财务报告

常见议题计算学习理论

归纳偏向

过适现象

变形空间

本词条内容贡献者为:

王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所