形成过程
自然语言处理作为人工智能的一个分支,已有 40 年的发 展历程,形成了计算语言学这一跨接语言、信息、认知科学和计算机技术的边缘学科。 它的发展主要围绕以下三个方面:(1)自然语言的表述和处理模式 ;2)自然语言知识的表示、获取和学习;(3)研制开发自然语言的应用系统。
在自然语言的表述和处理模式方面,源于印欧语系的语法学和句法分析一直居 于主导地位。八大词类、六种句子成分、短语结构和句法树成为语言分析的基本概念和依托。对于这一传统分析模式,仅在 20世纪70年代,曾一度受到菲尔墨 ( Fillmore) 和山克 ( Schank ) 的质疑和挑战。 80 年代以来,语料库语言学的兴起使人们对统计 模式产生了过高的期望,以致忽视了菲-山挑战的实质意义。
面对语音流的五重模糊(发音模糊、音词转换模糊、词的多义模糊、语义块构成的分合模糊、指代冗缺模糊) , 面对文字流的后三重模糊,大脑的语言感知应付裕如,表现了强大的解模糊能力,自然语言处理技术当前无从望其项背。
近20年来,自然语言处理囿于传统模式,不图突破。 但是,它所面临的所有重大课题,从音词转换到机器翻译,从全文检索、信息抽取到智能阅读助手,都在呼唤语言表述及处理新模式的诞生;呼唤上下文联想处理向“知其所以然”的语义理解前进;呼唤向语言感知的方向靠拢。随着网络时代的来临,这一呼唤的迫切性和严峻性在与日俱增。
HNC理论进行了近8年的探索,得到的结论要点是:
要把自然语言所表述的知识划分为概念、语言和常识三个独立的层面,对不同层面采取不同的知识表示策略和学习方式,形成各自的知识库系统。
建立网络式概念基元符号体系,即概念表述的数学表示式。这个符号体系或表示式应具有语义完备性,能够与自然语言的词语建立起语义映射关系,同时,它必须是高度数字化的,每一个符号基元(每个字母或数字)都具有确定的意义,可充当概念联想的激活因子。这个符号体系就是下文将要详细介绍的三大语义网络及五元组等,它是计算机把握并理解语言概念的基本前提。
建立语句的语义表述模式,即语句表述的数学表示式。这一模式的完备性应表现为可表述自然语言任何语句的语义结构,即乔姆斯基所提出的语言深层结构。这个深层结构就是下文将要简要介绍的句类格式。以句类格式为基点的语句分析叫做句类分析,是对大脑语言感知过程的初步模拟,在上述五重模糊或三重模糊的消解方面,理论上,句类分析应能接近甚至超过常人的水准。1
基本内容人对语言的理解本质上是一种认知行为,如果能描述大脑认知结构的具体模式,计算机就可以运用这些模式对自然语言进行理解处理。我们把认知结构分为局部和全局两类联想脉络,认为对联想脉络的表述是语言深层(即语言的语义层面)的根本问题。什么是局部联想和全局联想呢?简单地说,局部联想是指词汇层面的联想,全局联想是指语句及篇章层面的联想。更简单地说,理解句子有两种思路:一是从组成句子的词语入手,一是从句子的整体结构和上下文语境入手,前者就是局部联想,后者就是全局联想。当然,人在理解句子的时候,这两种联想不是截然分开的,而是并存的、相互作用的,计算机理解语言也应该综合运用这两类联想脉络。
HNC的出发点就是通过建立两类联想脉络来“帮助”计算机理解自然语言。下面将分别介绍HNC建立的两类联想脉络。1
局部联想脉络局部联想是词汇层面的联想,自然语言的词汇是用来表达概念的,因此,HNC建立的局部联想脉络体现为一个概念表述体系,这个概念表述体系可以简单概括如下:把概念分为抽象概念和具体概念,对抽象概念用五元组和语义网络来表达,对具体概念采取挂靠展开近似表达方法。1
概念概念有抽象与具体之分。在一般人看来,抽象概念总是比具体概念难于把握,中文信息处理界已有的汉语语义分类系统,其内容主要是对比较容易把握的具体概念的分类,这样的语义分类系统没有摆脱对客观事物进行科学分类的束缚,对抽象概念则几乎束手无策。实际上,从深层来讲,抽象概念比具体概念更具有基元性、系统性,更容易表达;具体概念是客观存在物在人的思维中的一种直接反映,它里面包含了许多世界知识,而对世界知识是很难进行详尽表达的。所幸的是,人对具体概念理解和认识的深度可以比抽象概念浅,所以可以采取实用原则“,不求甚解”。HNC理论侧重于抽象概念的表达。
HNC理论通过五元组和语义网络层次符号来完整地表达抽象概念,前者表达抽象概念的外在表现,后者表达抽象概念的内涵。
任何一个概念都需要从不同侧面予以表达,这种现象叫做概念的多元性表现。具体概念的多元性表现十分复杂,难以给出规范化的表达,抽象概念则有所不同,它的多元性表现在自然语言中有明显的迹象,这就是词性现象。印欧语系的词根或具有词根特色的词,可以加上不同的后缀分别构成动词、名词、形容词和副词,这种词性的转换就是抽象概念多元性的生动表现,也就是说,词根相同词性不同的词是对同一概念不同侧面的表达。汉语对抽象概念的多元性表现则没有相应的形式标志,而往往是同一个词兼有名词、动词、形容词、副词中的几个属性。汉语的词性模糊现象(即无形态变化)和西语以形态变化表现不同词性的现象都是抽象概念多元性的生动表现,形态变化的有无只是一种形式,本质在于抽象概念本身具有这种多元性表现的固有特征。
五元组那么,抽象概念多元性表现的“多”是一个模糊的“多”,还是一个确定的“多”?或者说,能否给以规范化的表达?或者再换一个说法,这个多元性表现的“多”是否存在某些基元(primitive)呢?答案是肯定的。抽象概念需要从动态、静态、属性、值和效应五个侧面加以表达,这就是抽象概念的五元组特性,简记为: 特性,它们是抽象概念多元性表现的基元。任何抽象概念都具有五元组特性,即都需要从五个侧面加以表达,不过,对某个抽象概念各个侧面的表达,自然语言中未必都有相应的词语,而且不同语种间存在着差别。反过来,自然语言中的一个表达抽象概念的词语必定是从五元组中的某个或某几个侧面来表达某个抽象概念。例如“,思考、思维、想法”就是分别从五元组的 侧面对同一概念内涵的表达。五元组是词性的本质内容,是词性的基元。所以,不必为汉语词汇的大量兼类现象感到困惑。
语义网络为表达抽象概念的内涵,HNC 设计了三大语义网络:基元概念语义网络、基本概念语义网络和逻辑概念语义网络。 语义网络是树状的分 层结构,每一层的若干节点分别用数字来表示,网络中的任一个节点都可以通过 从最 高层开 始、到该节点结束的一串数字唯一地确定,这个数字串叫做层次符号。三大语义网络是抽象概念的三大聚类。
三大语义网络为表达抽象概念的内涵而设计,最终将用它来描写自然语言词汇的语义,但网络本身却不是直接面向语言词汇的,而是面向构成词汇语义的概念基元的,适用于任何语种。 网络上的任何节点本身都是概念,但这些概念只是庞大的概念海洋里的“元素”,即它们是概念基元,它们通过不同方式的组合而构成各种各样的、无数的概念,HNC 定义了 8 种组合结构,用以表达复合概念。1
全局联想脉络全局联想脉络是语句及篇章层面的联想,语义块和句类理论是在语句层面设计的全局联想脉络,语义块是句类的函数。
语义块简单地说,语义块是句子的语义构成单位,形式上可以是一个词、一个短语或者一个句子。 语义块类似于传统语言学中的短语,但是,两者具有本质的区 别,表现在:第一,从内涵上来看,语义块是语义,即语言深层的定义,短语则是语法,即语言表层的定义;第二 ,从形式上来看,语义块可包含或嵌套另外的一个甚至多个语句 ,而短语不能。另外,传统的短语更多的是被看作词的组合结构,而不是句子的直接构成单位。
语义块这一概念的提出是为了便于从语言深层(即语义层面) 描述一个句子。 用词或短语描述句子,无法清楚地界定一个句子是否备,如果问一个句子应该或者可能有多少个词或短语,便难以回答。 但有了语义块的概念 , 就可以明确回答一个句子有多少语义块以及每个语义块的类型等问题。
语义块分为主语义块和辅语义块两大类。主和辅是从句义表达的角度划分的,主语义块是句义的“必不可少”的成分,辅语义块是句义的“可有可无”的成分。主语义块有 4 种:特征E、作用者A、对象B 和内容C。辅语义块有 7 种:条件、手段、工具、途径、参照、因、果。1
句类由于判断是人类思维活动的基本内容,也是语言表达的基本内容之一,我们据此又定义了一个句类:判断句。根据作用效应链定义的 6 个句类加上判断句,构成HNC的7个基本句类。每一个基本句类又分为若干个子类,子类的定义与相应基元概念网络的二级节点相对应。 子类之下还可以再分子类。
基本句类可以构成混合句类。所谓混合句类,是指两个以上的基本句类在一个 句子中共现,诸如作用效应句、过程转移句、状态判 断句等。 自然语言的句子是丰富的、复杂的,但它们表达的信息总是由7个基本句类组成的,这正是基本句类之所以称为“基本”的原因。在自然语言中,基本句类的混合往往(或者说主要)是两两混合,因此,混合句类理论上应 有6×5 + 6 = 36个。“6×5”是与作用效应链相对应的 6个基本句类的两两混合,“+ 6”是它 们与判断句的混合。1
实现HNC 理论走向应用的第一步是语义块感知和句类 辨识。语义块感知就是找出一个句子中的各个语义块,句类辨识就是通过感知得到一个句子的 E 语义块,进而确定这个句子所属的句类。感知到语义块、辨识出句类以后,就可以运用句类知识对句子进行理解处理,这称为句类分析。在句类分析过程中,句类知识起着全局性的指导作用,主要有四方面的知识:一是句类格式知识,二是语义块构成知识,三是语义块之间的概念关联知识,四是语义块和句类的转换知识。 语义块感知和句类辨识主要运用局部联想脉络,句类分析主要运用全局联想脉络,当 然,处理过程中对这两个联想脉络的运用不是截然分开的。1
自然语言处理系统以句类分析为 基础,HNC 设计了自然语言处理系统的基本框架,这个框架由 9个模块组成:
(1)单音词感知模 块;
(2)语义块感知模块;
(3)句 类 分 析模 块;
(4)合理性分析模块;
(5)短时记忆知识模块;
(6)语境生成模块;
(7)隐藏知识揭示模块;
(8)要点主题分析模块;
(9)短时记忆向长时间记忆扩展的模块。
目前,部分模块已在计算机上得到实现。
知识库自然语言处理离不开知识库,对知识库的设计和建立也是HNC理论的重要组成部分。人工智能早期一系列的挫折,使人们认识到知识的重要性。要使计算机表现出智能,唯一的办法就是使它拥有并运用知识。 正是这一认识促成了20世纪70年代到80 年代的“专家系统热”,并取得了引人注目的成就。但这些专家系统的知识,都是局限于特定的领域,而一般自然语言理解(不包括特定领域的简单语言应用系统)所需要的知识则完全不同于通常的专家系统。它需要各种各样的知识,但可分为三 大类:概念知识、语言知识、常识及专业知识。前两类知识的本质区别在于:语言知识与具体语种有关,而概念知识与语种无关。把概念知识从语言知识中独立出来是势在必然的发展。把常识及专业知识独立出来对知识库的建立是非常方便和有利的,这一点不言而喻。1