版权归原作者所有,如有侵权,请联系我们

[科普中国]-语言信息处理

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

语言信息处理的定义

语言信息处理 (LIP,Language Information Processing)有时也称作自然语言处理(NLP, Natural Language Processing)或自然语言理解(NLU, Natural Language Understanding), 自然语言处理是上位概念,包括理解和生成,而语言信息处理可以分别理解为语言信息|处 理”和“语言|信息处理”。 前者指的是对各 种语言信息进行处理, 后者指对语言本身进行信息化的处理。1 这几个概念的具体阐述请看下文“几个常见术语的辨析”。

语言信息处理源自20 世纪 50 年代 和 60 年代的机器翻译,其基本原理是结合其他边缘学科的知识, 解决机器在语言理解和生成中语法和语义消岐问题。 自然语言处理系统首先把指令“Delete file x”在音位学平面转化成音位系列“/ dilit fail eks/”,然后在形态学平面把这个音位系列转化为语素系列“delete” “file”“x”,接着在词汇学平面把这个语素系列转化为单词系列并标注相应的词性:(“delete”VERB)(“file”NOUN)(“x”ID),在句法学平面进行句法分析, 得到这个单词系列的句法结构,用树形图表示,在语义学平面得到这个句法结构的语义解释:delete-file (“x”),在语用学平面得到这个指令的语用解释“rm-i x”,最后让计算机执行这个指令。

语言信息处理技术发展到今天,其内涵和外延已经发生了巨大的变化,美国计算机科学家 Bill Manaris 在 1999 年将自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。 自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型, 提出相应的方法来不断地完善这样的语言模型, 根据这样的语言模型设计各种实用系统, 并探讨这些实用系统的评测技术。2

语言信息处理的发展冯志伟先生将语言信息处理的发展分为三个阶段:1)萌芽期(20世纪40年代末至20世纪60年代中期)。其理论来源是形式语言学派,语言处理的概率算法被用于机器翻译,这一时期的基础性研究为自然语言处理的理论和技术奠定了坚实的基础。2)发展期(20世纪60年代中期到80年代末期)。其标志是机器翻译金字塔”(MT Pramid),语义分析在机器翻译中越来越受到重视。3)繁荣期(20世纪90年代至今)。其重要标志是在基于规则的技术中引入了语料库方法,其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知 识库的方法,同时网络技术的发展对于自然语言处理产生了的巨大推动力。但是,语言信息处理也遇到了非常大的挑战。首先,对自然语言的处理还一 直无法突破单句的界限,从而阻碍了复句和语篇的理解和生成技术的研究。其次,基于句法—语义规则的理性主义方法受到质疑,动态语义分析模型是亟待解决的关键性难题。 再次,语料库的建设和基于语料库语言学的自然语言处理技术还无法满足大规模真实文本的处理的战略目标。最后,现有的语言信息处理无法有效承担挖掘大数据商业价值的任务,企业越来越依赖于数据分析师,语言处理技术越来越让位于信息处理技术, 语义网还没有成型的时候, 语用网的时代就已经到来了。 2

语言信息处理的研究对象观察计算机系统所处理的语言信息,大致上可分为两类:一类是模式信息 ,如声音和图象,它们是语音识别和文字识别的前期处理对象;另一类是符号信息,如书面语的文本或者作为汉语语音识别结果的音节符号,它们是代码化了的,或者更确切地说,计算机只将每个字符的编码看作处理对象。利用键盘进行人机会话,对存储于计算机系统内的文本进行检索、校对、翻译、做摘要,乃至让计算机“理解”人类的语言, 所有这些工作,计算机所处理的对象都是符号信息。所以说通常文献中所说的“语言信息处理”是指其处理对象为符号信息。3

语言信息处理系统的基本模型机器翻译系统是典型的 、其应用价值也是最明显的自然语言处理系统。当代机器翻译系统的模型可用图 1 表示:

图 1反映的是基于规则方法的机器翻译系统的基本模型。90年代 ,机器翻译研究还发展了基于统计与 基于实例的各种模型。不过,当前世界上实际运行的机器翻译系统基本上仍以基于规则的模型为基础。从这个基本模型可以了解到,机器翻译系统的基本原理乃是要素合成原理。首先将原文的句子分解成基本构成要素(词 ,惯用语等),这样才可以查词典,才好运用语法规则找出句子的结构,这就是句法分析(包括词法分析),并通过语义分析及语境分析排除不适当的歧义,从而形成原文的机器内部表示。于是可在结构的层次上进行转换,得到译文句子的结构,并选择适当的译词,以后再进行词序调整、虚词增删及形态变化,最终得到译文的表层句子。

基础——计算语言学理论作为一种现代学术思潮,计算语言学(Computational Linguistics)被界定为“语言学的一个分支学科,研究人类语言行为的计算机模拟,特别是像机器翻译和言语综合这 样的应用”。4可以说,计算语言学是一门产生于计算机科学和语言学接合部的边缘性交叉学科,同时涉及文科、理科和工科三大知识领域,它最能赋予语言学以现代化特色。这门学科的建立和发展,使得属于人文科学传统学科的语言学在现代科学体系中的地位有了明显的变化,它不仅是各门科学的基础部分,而且成为一门带头或先导科学(a pilot science),获得了与哲学和数学同等 的学术地位,其重要意义已为国际学术界达成共识。5

面向计算机的语言学理论研究在方法论上的取向应当是十分明确的,因为“现代科学知识中方法论的地位愈来愈高,作用愈来愈大。如果没有新的科学方法和新的研究手段,那就很难创造新的科学理论”。6

计算语言学的学科交叉性决定了语言理论研究方法的选择,它必然是代表实证主义语言观的描写取向,并且必须以应用价值为先导。唯此方可把所观察到的语言现象形式化、算法化,并使之在计算机上加以实现。目前,计算机的研制已发展到第五代,其特点是带有人类的智能,关键在于要求机器更好地识别和处理自然语言。有专家认为,开发第五代计算机的难点不在技术,而在语言分析。因此,加强语言学基础理论及其应用技术的研究具有十分重要的现实意义。7

几个常见术语的辨析在语言信息处理领域,不同的时期和不同的使用场合,有几个内涵类似的术语被用于指称大致相同的内容。在各种文献和媒体中,我们经常可以看到“自然语言处理(Natural Language Processing) ”、“自然语言理解(Natural Language Understanding)”、“计算语言学 (ComputationalLinguistics) ”、 “语言信息处理(LanguageInformationProcessing)”这几个术语,它们常常被混用。事实上这几个概念虽然内涵大致相近,使用上却各有侧重。

自然语言处理是力图使计算机理解和运用自然语言,从而实现用自然语言直接进行人 机通信的技术。计算机直接处理自然语言,无需人去适应机器,这将是一个更自然且消除 了异化的人机环境,计算机将能帮助人类完成更多的工作 。简而言之,它是研究如何利用计算来理解和生成自然语言的。

自然语言处理也称为计算语言学,二者常被当成同义词,它们所指的是同一个研究领域,只是在使用时稍有不同。通常的使用习惯是,在偏重于说明理论时,使用计算语言学这一术语;而偏重于说明方法时,常使用自然语言处理 。

有的学者认为自然语言处理和自然语言理解也是同义词 。我们认为自然语言处理的外延要更广一些,是后者的上位概念,因为它不但包括自然语言理解,还应包括自然语言生成。

语言信息处理有广义和狭义的不同理解。广义的语言信息处理,是指对人类语言听、说、读、写、贮存、复制、教学、传播等应用方面所运用的技术、手段和方法。从这个意义上说,语言信息处理技术的发展经历了四个阶段:以雕刻作为记录技术的“甲骨石木” 阶段、以书写作为记录技术的“笔墨纸砚”阶段、以打字机和印刷技术为标志的机械与机器阶段以及以计算机技术为基础的信息化阶段。狭义的语言信息处理是指用计算机对自然语言的音、形、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、 理解、生成等的操作与加工 。从字面上看,“语言信息处理”这个短语可以有两种结构切分方式: “语言信息|处理”和“语言|信息处理”。前者指的是对各种语言信息进行处理, 对应广义的理解;后者指对语言本身进行信息化的处理,对应狭义的理解。在实际运用中,语言信息处理涉及到多个应用领域,比如语言教学、语言传播与交际等,所以这个术语偏重于指应用。

因此,“计算语言学”、“自然语言处理”、“语言信息处理”这组内涵相近的术语,分别侧重于指同一学科对象的理论、方法和应用三个方面。1

语言信息处理的应用语言信息处理是属于信息处理的范畴,即运用现代信息科学技术对自然语言的各个方面进行信息化处理。这些方面包括语言机制的运作、语言规律的挖掘、语言的教学与传播、 语言的交际与运用。因此从应用的角度来看,语言信息处理的任务和学科内容可用“层面”概念来表述,研究发现,语言信息处理应包含四个层面:语言运作技术信息化、语言研究工具信息化、语言教学手段信息化、语言交际方式信息化。这四个层面是语言学和信息科学的不同部分以及其他的学科相结合的产物,是在信息化时代语言系统运作和应用的新模式。

语言运作技术层面语言的运作包括语言信息的编码、传递和解码。其中编码和解码由人的大脑完成,信息传递通过外部信道进行。人类对于语言的使用主要依赖两种能力:一种是词汇记忆能力,另一种是语言规则的应用能力,即如何将词、短语和句子组成顺序性或层次性的结构的能力。词汇的记忆构成了人脑中的心理词库 (mental lexicon),而规则的应用能力则来源于语 言习得过程中长期积累而形成的心理语法 (mentalgrammar) 。这两种能力共同驱动大脑进 行语言信息的编码和解码,从而实现自然语言的生成和理解。 语言运作技术的信息化,就是让计算机模拟大脑的语言运作机制,实现机器自动生成 和理解语言信息。在当今信息爆炸的时代,人们日常需要接触和处理的语言信息数量惊人 的庞大,仅靠人力已经难以应付,因此迫切需要借助计算机来处理这些海量的语言信息, 以减轻劳动强度,提高工作效率。所以,从这个角度上说,自然语言处理的目标并不仅仅是实现通过自然语言进行人机对话,还需要让计算机在一定范围内代替人脑完成各种以自 然语言为对象的复杂工作任务,比如机器翻译、自动文摘、信息检索、信息过滤、语音识别与合成等等。 语言运作技术信息化的核心是自然语言的理解和生成。这涉及到语言学、计算机科学、 数学、哲学、逻辑学、认知心理学、物理学等学科领域,其关键问题是要科学合理地揭示自然语言的运作机制和规律规则, 并建立行之有效的数学模型和语言知识的形式化表示方法。根据人脑处理语言的两种主要能力,我们认为语言运作技术信息化的实现主要依赖于 两个方面的工作:语言资源建设和语法、语义的算法设计。机器理解和生成自然语言的根 本前提是我们预先告诉机器足够多的语言知识 ,有了这些语言知识库的支持,机器才能根 据自然语言的语法规则建立的数学模型来模拟人脑的语言运作机制,从而实现信息化的语 言运作。因此,语言资源建设是基础中的基础。

语言研究工具层面语言学是一门实证科学,研究语言系统本身是怎样运动和发展的。实证研究通常先做出一些假设,然后运用观察、归纳和类比等方法得到结果来检验假设的真实性。 语言的内在规律存在于语言事实中,因此语言学研究结果的科学性取决于对语言事实 观察和描写的精度、广度和深度,以及对语言规律解释的逻辑周延性。语言事实浩如烟海, 语言规律也并不具备科学公理般的严谨,因此语言学的研究一直是一个艰难的探索过程, 在研究的工具和技术上,往往离不开从其他学科中的借鉴。 事实上整个科学发展史,语言学的研究在各个历史阶段一直在从当时主导的学术思潮 和科学技术中吸收养分。比如在中世纪的欧洲,经院哲学大行其道,表现在语言方面就是 传统语法的推行。传统语法亦称规范语法,它像法律条文一样,硬性规定一套语法规则, 让人们按照这些规则去说去写,而不顾及它们是否与实际生活中的语言相符,也不考虑语言本身的发展变化。文艺复兴时期自然科学摆脱了神学的束缚而迅速发展起来,语言学家们也开始历史、客观地进行语言研究。那时的语言学家们吸取了生物进化论和动植物分类 学的观点和方法,对语言进行对比和谱系分类,并在此基础上发展起来了历史比较语言学。 到了十八世纪拉瓦锡引导的“化学革命”对语言研究有着巨大影响。语言学家们开始采用化学结构式的方法来研究语言,将语言划分为不同层次:音素、语素、词、词组、分句、 句子,力图从一堆素材里按照严格的分析手段,一步一步地得到其中的结构成分。在二次 世界大战后,科学技术出现了一系列划时代的进展,对事物的研究从定性的描述逐渐过渡 到定量的研究,数学在整个自然科学体系中的地位日益凸显,与语言学也发生了密切的联 系,生成语言学应运而生。生成语言学家把语言看成是一个数学的目标,建立了类似于数 学中的公理和推理规则 。 在当前的信息时代,信息技术已经成为所有学科的辅助研究工具,语言学也不例外。语言研究工具的信息化包括两个方面,即语料获取、存储、检索的信息化以及语言规律与语言学知识发掘过程的信息化。这涉及到信息技术的多个方面,如文本处理技术、网络技术、数据库技术、软件工程以及计算语言学本身的分词技术、语料库技术等。 与人脑相比,计算机的显著优势在于其海量的存储功能和高速的数据检索、排序与计算功能,这两个方面正是语言学研究特别需要的。观察到的语言知识越全面、越细致,得 到的语言规则越精确、越科学,因此大规模的语料库是现代语言学研究必不可少的工具; 而各类分析处理语料的专门软件和数据库工具,则会使语言学家如虎添翼,极大地提高工作效率。 就目前的状况而言,各种类型的数字化语料库如雨后春笋般不断涌现,其规模也越来 越大,结构越来越科学,内容越来越丰富,这部分资源已经在语言学研究中发挥着重要的作用。可是另一个方面,专门为语言学研究而开发的辅助软件却十分匮乏,这种状况严重制约了语言研究工具信息化的进程。

语言教学手段层面语言教学是应用语言学最早和最主要的研究领域,语言教学方法和教学手段的探索则 一直贯穿整个应用语言学的发展历史。现代信息技术与语言教学的结合源于现代计算机技 术发明后不久。在计算机出现后十年左右时间,美国就开始了计算机辅助教学的研究,二 十世纪五十年代则应用到语言教学领域,到了六十年代计算机辅助语言教学(Computer Assisted Language Learning,简称 CALL)已经逐渐盛行起来,迄今为止已有四十多年的历史。 四十多年来语言教学观经历了从行为——结构主义到认知主义再到社会认知主义的变迁。 同时计算机技术也实现了从大型主机到个人计算机再到网络型的、多媒体计算机的巨大飞跃。在二者的共同影响下,语言教学手段信息化也取得了长足的进步。进入二十一世纪以来,多媒体与网络技术、虚拟学习环境、人工智能在语言教学中的运用,为以网络为中心的计算机辅助语言教学提供了更加广阔的天地。无论从 CALL 本身的发展还是人们对 CALL 的认识与运用,都推动了信息技术与语言教学(尤其是外语教学)的整合发展。CALL 的作用也受到了前所未有的重视,被视为外语(与第二语言)教与学的“利器”,已成为一种流行的语言教学手段。 技术的迅速发展和理论研究的相对滞后带来了一系列的问题和矛盾,引发了诸多的争鸣。比如教师和学生在新的语言教学模式下角色的定位问题、语言学习过程对机器的过分依赖引发的技术异化问题、语言学习者的情感因素与情感交互需求与缺乏情感冷冰冰的机 器之间的矛盾、信息化环境下语言习得规律的变化与发展等等。这些问题是语言教学手段信息化必须面对的问题,期待着进一步的理论研究。对这些问题的深入研究,是语言教学 手段信息化从目前广泛的实践尝试阶段走向理论发展成熟阶段所面临的新挑战,也是时代 赋予语言信息处理研究的历史使命。

语言交际方式层面语言交际方式分语音交际与文字交际,从古到今它们分别沿着不同的技术轨迹向信息化的方式发展。语音交际经历了空气传播——有线电(电话、有线电视和广播)——无线电(对 讲机、移动电话、无线电视和广播)——语音数字编码技术(网络电话、语音聊天)的发展历程,文字交际则经历了书信(鸿雁传书、邮政传递)——电传电报传真(FAX)——无线寻呼机(BP)——电脑网络(EMAIL、BBS、IRC)——手机短信(SMS)的发展历程。 在网络通讯和手机等现代移动通讯高度普及的今天,信息化交际是除了面对面的语言交际外人类最主要的交际方式。据统计,2008 年全球手机短信发送量高达 2.3 万亿条。来 自中国电信部门的统计数据显示,仅 2009 年 1 月 25 日除夕当天,通过中国移动网络发送 的短信达 46 亿条,通过中国联通网络发送的短信达 4.97 亿条 。这从一个侧面反映了人类 的语言交际方式已经全面进入了信息化时代。人类交际过程中对语言信息的发送与反馈具有很强的即时性要求,我们可以预言这种需求决定了今后以手机为代表的嵌入式手持信息处理终端必将主导语言交际方式信息化发展的主流方向。因此,手持嵌入式系统的语言技术应用解决方案是语言交际方式信息化的 关键因素。这些技术包括嵌入式系统中的字库设计及其调用技术、字符显示技术、文字输入技术、语音处理技术、文本检索与信息抽取技术等 。1