学习单元是学习系统内实现学习算法功能的核心。一般涉及这样几个方面,一种是处理经验事例的方式,有渐进式和非渐进式。渐进式是指每次仅处理一个事例,能不断地处理新遇到的事例。因而,这种方式能处理很大的(理论上是无穷大的)数据集。非渐进式则指仅用一次时间处理有相当大小的一个事例集,这种方式的长处是能根据大量数据的统计特点获得很多决策、推断信息。
简介机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习的核心是学习,学习能力是智能行为的一个非常重要的特征,还没有一个精确的、能被公认的定义。它与记忆、思维、知觉、感觉等多种心理行为都有着密切的联系,使得人们难以把握学习的机理与实现。H.Simon的观点:学习是系统中的任何改进,这种改进使得系统在重复同样的工作或进行类似的工作时,能完成得更好。学习的基本模型就是基于这一观点建立起来的。学习单元是学习系统内用于学习知识和技能单元(学习机构)。它通过对环境的搜索取得外部信息,然后经过分析、综合、类比、归纳等思维过程获得知识,并将这些知识存入知识库中1。
输入学习单元的输入有两种:一是外界环境,另一是执行任务后的反馈信息。不同的学习系统有不同的经验实例表示。最简单的一种是二元特征表示,仅仅描述对象某些属性的存在与否, 例如病人有或没有某个特定症状。连接学习和遗传学习方法一般使用这种二元特征的输入。另一种是用属性值表示,每个属性有一组相互排斥的值,如颜色属性的值可为红色、蓝色和黄色等。二元特征可看作是此类的特例。这种属性值表示典型地用在归纳学习方法中。还有一种更复杂的表示是关系或结构表示,描述两个或多个对象间的关系,如对象A位于对象 B的上方。这种关系或结构信息一般是以谓词逻辑、语义网络等形式表示的。同前两种表示相比,这种表示具有更强的表示能力,但同时也为作为学习中重要部分的匹配过程带来了相当的复杂度,以至影响了它们的使用。分析学习主要处理这种关系表示型的数据结构。
学习系统为了使计算机系统具有某种程度的学习能力,使它能通过学习增长知识,改善性能,提高智能水平,需要为它建立相应的学习系统。一个学习系统必须具有适当的学习环境,一定的学习能力,并且能应用学到的知识求解问题,其目的是能提高系统的性能。一个学习系统一般应该由环境、学习单元、知识库、执行与评价四个基本部分组成。各部分的关系如图所示。在图中,箭头表示信息的流向;环境指外部信息的来源,它将为系统的学习提供有关信息;学习单元指系统的学习机构,它通过对环境的搜索取得外部信息,然后经过分析、综合、类比、归纳等思维过程获得知识,并将这些知识存入知识库中;知识库用于存储由学习得到的知识,在存储时要进行适当的组织,使它既便于应用又便于维护;执行与评价由执行和评价两个环节组成,执行环节用于处理系统面临的现实问题,即应用学习到的知识求解问题,如定理证明、智能控制、自然语言处理、机器人行动规划等;评价环节用于验证、评价执行环节的效果,如结论的正确性等。另外,从执行到学习必须有反馈信息,学习将根据反馈信息决定是否要从环境中索取进一步的信息进行学习,以修改、完善知识库中的知识。这是学习系统的一个重要特征。
本词条内容贡献者为:
李嘉骞 - 博士 - 同济大学