通用上层模型

科普中国-科学百科 2018-04-25 作者:李岳阳

  通用上层模型(GUM)是被广泛使用的本体之一,GUM是通用上层模型(Generalized Upper Model)的缩写,它是独立于专业领域的语言本体。它的目的是希望用自然语言的表达方式来组织信息。GUM项目是文体上层模型(PUM—Penman Upper Model)项目的后继研究项目。GUM支持多语种处理,包含基本的概念及独立于各种具体语言的概念组织方式。GUM的表示语言是Loom。最早的开发人员是南加州大学信息科学研究所(ISI—Information Sciences Institute)的Bill Mann和Christian Matthiessen等人。

  基本介绍

  GUM是通用上层模型的缩写。它是独立于专业领域的基于语言的本体,目的是希望用自然语言的表达方式来组织信息。GUM中使用了多种语言技术组件以支持多语种处理,包含基本的概念及独立于各种具体语言的概念组织方式。GUM的表示语言是Loom。Bremen本体研究小组在维护GUM本体时,在数据本体工程原理的基础上使用OWL-DL对GUM进行重新设计,试图将GUM的公理化进行扩展并对空间语言学领域提供更详细的解释1。

  本体的分类

  Guarin提出以详细程度和领域依赖度2个方面对本体进行划分。描述或刻画建模对象的程度较高的称为引用本体(Reference Ontolgoies),程度较低的称为共享本体(share Ontologies)。根据本体对领域的依赖程度由低到高分别分成4个类别。

  (1)顶级本体(top-level Ontologies)描述最普遍的概念及概念之间的关系,如空间、时间、事件、行为等,与具体的应用无关,其他本体均为其特例。

  (2)领域本体(domain Ontolgoies)描述特定领域中的概念和概念之间的关系。

  (3)任务本体(task Ontolgoies)描述特定任务或行为中的概念及概念之间的关系。

  (4)应用本体(application Ontologies)描述依赖于特定领域和任务的概念和概念之间的关系。

  本体案例

  目前已开发的本体项目中,大致可以归类到顶级本体这一类的主要包括以下几种。

  Wordnet

  Wordnet是由美国普林斯顿大学认知科学实验室的George A Miller教授负责开发研制的。它的设计思路来源于心理语言学和人类词汇记忆的计算理论。迄今为止,Wordnet被认为是计算语义学、文本分析等相关领域研究者可获取的最为重要的资源。

  Framenet

  Framenet是美国国家科学基金支持的项目,由美国加州大学伯克利分校的国际计算机科学研究所承担。目前发展为Farmenet Ⅱ。它采用称为语义框架的描述框架,由人以机器的形式对语义知识进行标注,提供了很强的语义分析能力。

  GUM

  GUM是通用上层模型的缩写。它是独立于专业领域的语言本体,目的是希望用自然语言的表达方式来组织信息。GUM支持多语种处理,包含基本的概念及独立于各种具体语言的概念组织方式。GUM的表示语言是Loom。

  Mikrokmos

  Mikrokmos支持多语种处理,采用一种语言中立的中间语言TMR来表示知识。

  SENSUS

  面向自然语言处理,为机器翻译提供概念结构,包括7万多个概念。Perez和Benjamins在研究了多种本体分类方案的基础上,归纳出10种类型,分别是:知识表示本体、通用本体、顶级本体、核心本体(或称元本体Meta/Core本体)、领域本体、语言本体、任务本体、领域——任务本体、方法本体和应用本体。这种划分方法是对Guarin分类方法的扩充和细化,但这10类本体之间的界限比较模糊,彼此又有交叉,层次不够清晰。

  知网(HowNet)

  HowNet是中国科学计算机研究所董强、董振

  东的研究成果。德克萨斯大学计算机系知识系统研究小组将HowNet

  列为本体项目之一。研究小组对其评价是:“HowNet是一个在线的常识知识库,用于自然语言处理。它包含中文词典中概念与概念间的关系,概念的属性与属性间的关系。同时还包含了与中文对应的英文概念以及概念的属性间的关系。”HowNet的基本单元是义原:以义原描述概念,以义原表示概念与概念之间以及概念所具有的属性之间的关系,其中最重要的是上下位关系。根据义原的上下位关系,所有的“基本义原”组成了一个义原层次体系。

  HowNet着重反映的是概念的共性和个性,例如:对于“医生”和“患者”,“人”是其共性,HwoNet在其主要特性文件中描述了“人”所具有的共性,那么”医生”的个性是他是“医治”的施事者,而“患者”的个性是他是“患病”的经历者。此外,HowNet的关系描述也是一大特色,除了上下位关系,HowNet还描述了下列各种关系:近义关系、反义关系、部件与整体间的关系、属性与宿主间的关系、材料与成品间的关系、对逆关系等。

  基于上述特色,可将其知识网络体系输入计算机进行,使知识对计算机而言是可操作的。另外中英文对照的特色使它成为国内外中文信息处理领域引用最广的本体1。

  本体的作用

  从一般领域应用的角度来理解,本体主要有以下作用。

  1.对于领域知识进行分析、明确并使其形式化

  一旦明确说明了一个领域中的各种术语,就可对领域知识进行分析。当要重用和扩展现有本体时,对术语的形式化的分析就体现出了它的重要价值。

  2.在人、机器(表现为软件代理)以及人与机器之间共享

  对于信息及结构的共同理解,这是本体开发最基本的一个目标。采用术语和关系来编码领域假设。举例说明,假设几个不同的Web站点包含医药信息或者提供医药电子商务服务,如果这些站点之间共享和发布他们共同使用的术语的本体,那么计算机代理就可以从这些不同的站点中抽取并集合信息,用这些集合的信息来回答用户的查询请求或作为其他应用的输人数据。

  3.实现一定程度的领域知识的重用

  促进领域知识的重用推动了本体的研究。下面给出一个本体在领域知识重用方面的例子,比如有多个不同领域组织的模型均需要表示时间这一概念,时间的表示包括时间间隔的概念和定义、时间指针、相关的时间测量方法等。如果这些领域和组织中有一个组织详细开发了满足要求的本体,其他领域和组织就可以很方便简单地把这个本体应用到自己的领域中来。此外,如果需要开发一个大型的本体,可以通过集成描述大型本体某些部分的多个现成的本体来实现。

  4.本体可以明确领域假设,使领域公理得到明确描述从而达成共知

  通过本体可以明确领域假设,这些领域知识的明确说明对于该领域的新用户了解该领域中的术语非常有用。如果关于领域的知识发生变化,通过本体可以非常容易地改变关于该领域的假设。如果关于领域的假设被隐藏到程序语言代码中,则这些假设难以发现和理解,更难修改,特别是对那些不懂程序的人更是如此。

  本词条内容贡献者为:

  李岳阳 - 副教授 - 江南大学

责任编辑:科普云

上一篇:岭迹法

下一篇:条件独立性

科普中国APP 科普中国微信 科普中国微博
科普中国-科学百科
是中国科协为深入推进科普信息化建设而塑造的全新品牌,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平。

猜你喜欢