版权归原作者所有,如有侵权,请联系我们

[科普中国]-词汇标示框架

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

**词汇标示框架(Lexical Markup Framework,简称LMF)**是国际标准组织(ISO/TC37)进行中的一项工作,目的在为自然语言处理与机读字典的词汇库描述建立一个标准化框架。计划范畴涵盖对牵涉到多语沟通及文化差异的语言资源,对建立与交换这些资源的准则与方法做标准化处理。

目标词汇标示框架的目标有三。其一,为词汇资源的创造与使用提供共用模型。其二,管理词汇资源间的资料交换。其三,促进个别电子资源的整合以形成大规模的全球性电子资源。

词汇标示框架的种类包括单语、双语或多语的词汇资源。这三种分类亦适用于小型或大型词汇库、简单或复杂词汇库,乃至于书面或口语词汇表述。说明的范畴包含构词学、语法学、计算语意学及电脑辅助翻译。涵盖的语言包括所有自然语言,并不局限于欧洲地区。此计划在自然语言处理的运用上不受限制。词汇标示框架能呈现多数辞典,包括WordNet、EDR及PAROLE。

历史在过去,已有不少计划做过词汇库标准化的研究,如GENELEX、EDR、EAGLES、 MULTEXT、PAROLE、SIMPLE 与ISLE。其后,参与ISO/TC37的国家代表决定为自然语言处理与词汇库呈现订定标准。2003年暑假,由美国代表提出的词汇标示框架计划诞生。2003年秋,法国代表提出定义资料模型的技术主张,以俾利做自然语言处理的辞典。到了2004初,ISO/TC37委员会又决定做一项共同ISO计划,由Nicoletta Calzolari (义)担任召集人,Gil Francopoulo (法)与Monte George (美)担任编辑。此计划建立出的词汇标示框架已有13个版本,并已分送给各国指定的专家做评论,再经过ISO技术会议的讨论修正。经过五年的努力,多次会议与电子邮件往来,编辑群间达成共识并建立了完整一致的UML模型。综上所述,词汇标示框架应可被视为当今自然语言处理词汇库领域中技术发展之极致。

现况词汇标示框架已于2008年11月17日正式发行,成为国际标准;标准号码为ISO24613。

隶属ISO/TC37家族的一支ISO/TC37标准家族目前被定位为高阶指定规格,处理包括断词(ISO 24614)、标注(ISO 24611亦称为MAF、ISO 24612即LAF、ISO24615亦即SynAF与ISO 24617-1又名SemAF/Time)、特征结构(ISO 24610)、多媒体载体(ISO 24616亦称为MLIF)以及辞典(ISO 24613)等内容。这些标准主要建立在提供共同术语的低阶指定规格,亦即资料范畴汇总(ISO 12620的修定版)、语言编码(ISO 639)、书写体编码(ISO 15924)、国家编码(ISO 3166)与通用编码(ISO 10646)。

这两个阶层架构的标准遵循下列两项简单共通准则,以构成具内部一致性的标准家族:

高阶指定规格提供了上层的结构框架,其内容将由标准化常数充实之。

低阶指定规格提供标准化常数元素与后设资料。

基本标准语言学的常数元素如/女性/或/及物/在词汇标示框架中并没有被规范,但被记录在资料范畴汇总(DCR)中。资料范畴汇总是一项全球性资源,由ISO/TC37负责维持,依照ISO/IEC 11179-3:2003*[1]。这些常数元素要用来充实高阶结构性元素。

词汇标示框架遵守由物件管理组(OMG)规范的统一塑模语言(UML)。结构由UML的阶级图表呈现,例子由UML的例子图表或物件图表呈现。

需要补充说明的是,XML的档案类别定义(DTD)是由词汇标示框架的附件所规范1。

模型结构词汇标示框架包含下列组成成分:

核心封包:也就是描述词条资讯之基本阶级的结构。

核心封包的扩充:它以框架表达,该框架描述核心组成成分的再利用,此核心组成成分与特定词汇资源所需的额外组成成分相连接。

这些扩充乃特别为下列领域而设置,包含构词学、机读字典、自然语言处理语法学、自然语言处理语意学、多语标记、自然语言处理典型模式、多字词表达模式与限制表达模式。

参见构词学

机器翻译,有关于几种多语标记的资讯(于方法段)。

本词条内容贡献者为:

王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所