作者:王熙照,CAAI常务理事、知识工程专委会主任委员,深圳大学教授,IEEE/CAAI Fellow, IEEE-SMC计算智能专委会主席,Springer杂志Machine Learning and Cybernetics主编。深圳市海外高层次人才,曾获省部级自然科学一等奖和吴文俊人工智能自然科学一等奖。主要研究兴趣包括不确定性建模和面向大数据的机器学习,在该领域发表学术论文多篇;主持完成国家自然科学基金等项目多项;曾担任多个国际/国内学术会议的大会或程序主席。
内容概要
机器学习是一个计算机系统获取智能的最根本途径,而学习的目的是表示和使用蕴含在数据内的知识。由于知识所固有的不确定特征,近十几年来不确定性知识表示与学习的研究有了一个迅猛的发展,并且在整个人工智能领域和相关产业界占有一个不可替代的位置。随着大数据时代的到来和深度学习的快速推广,各种监督模式的表示学习已迅速成为了业界和学术界十分关注的焦点。将不确定性建模后融入到监督学习过程中,可更精确描述样本空间和假设空间,从而优化整个学习过程,从本质上提高学习的性能。
机器学习包括许多分支,监督学习是其中最有代表性的一支。监督学习可按监督信息的强弱分为有监督、半监督、自监督、弱监督等学习范式。其监督信息强弱的量化表示,可视为一种典型的不确定性的表示与度量。
不确定性是一个一般性概念,尚未有一个严格的定义。就机器学习的预测任务而言,有两种:
第一种是“偶然不确定性”, 也叫做统计不确定性。它的意思是在给定模型的情况下,在模拟的过程中出现的不确定性有多大。我不能给你准确的结果,但是我能给你一个准确的概率。
第二种是“认知不确定性”,也叫做系统不确定性,意指你选择的模型可能不对。因为知识不确定性而预测不准,那就是我考虑不周,是我缺少重要的认知。
已有众多的关于不确定性在特定环境下度量和表示模式,典型的包括:
这些不确定性的建模表示和它们之间的关系研究,曾一度成为不确定信息处理领域的热点。不确定性是诱导监督学习中的归纳偏置的重要途径。机器学习试图去建造一个可以学习的模型/算法,用来预测某个目标的结果。要达到此目的,要给于学习算法一些训练样本,样本说明输入与输出之间的预期关系。然后假设学习器在预测中逼近正确的结果,其中包括在训练中未出现的样本。既然未知状况可以是任意的结果,若没有其他额外的假设,这个任务就无法解决。这种关于目标函数的必要假设就称为归纳偏置。
分类器输出的不确定性建模:分类器A和B在同一个训练集合上训练精度相同,但输出分布具有明显不同的不确定性,哪一个分类器的泛化能力强?
随机权网络的权分布不确定性建模:权矩阵W的不确定性度量与此单隐层前馈神经网络分类器的泛化能力有和关系?
结论:
ü 机器学习中不确定性可大致分为数据的不确定性与模型选择的不确定性,对应于偶然不确定性和认知不确定性;
ü 任何机器学习算法也都有其明确表示的或隐含的归纳偏置,不确定性是诱导偏置产生的一种重要途径;
不同机器学习过程中各个阶段的不确定性表示是极具挑战性的课题,它的有效建模有时可从本质上改进学习的性能。