版权归原作者所有,如有侵权,请联系我们

[科普中国]-自然语言信息系统

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏
简介

自然语言信息系统是对自然语言进行处理和理解的系统,是人工智能是计算机科学领域与人工智能领域中的一个重要方向。自然语言信息系统中最重要的两个技术是自然语言处理和自然语言理解。

自然语言处理

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

现代NLP算法是基于机器学习,特别是统计机器学习。机器学习范式是不同于一般之前的尝试语言处理。语言处理任务的实现,通常涉及直接用手的大套规则编码。

许多不同类的机器学习算法已应用于自然语言处理任务。这些算法的输入是一大组从输入数据生成的“特征”。一些最早使用的算法,如决策树,产生硬的if-then规则类似于手写的规则,是再普通的系统体系。然而,越来越多的研究集中于统计模型,这使得基于附加实数值的权重,每个输入要素柔软,概率的决策。此类模型具有能够表达许多不同的可能的答案,而不是只有一个相对的确定性,产生更可靠的结果时,这种模型被包括作为较大系统的一个组成部分的优点。

自然语言处理研究逐渐从词汇语义成分的语义转移,进一步的,叙事的理解。然而人类水平的自然语言处理,是一个人工智能完全问题。它是相当于解决中央的人工智能问题使计算机和人一样聪明,或强大的AI。自然语言处理的未来一般也因此密切结合人工智能发展。

自然语言理解

自然语言理解(Natural Language Understanding )俗称人机对话。人工智能的分支学科。研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。这在当前新技术革命的浪潮中占有十分重要的地位。研制第 5代计算机的主要目标之一,就是要使计算机具有理解和运用自然语言的功能。

自然语言理解是一门新兴的边缘学科,内容涉及语言学、心理学、逻辑学、声学、数学和计算机科学,而以语言学为基础。自然语言理解的研究,综合应用了现代语音学、音系学语法学、语义学、语用学的知识,同时也向现代语言学提出了一系列的问题和要求。本学科需要解决的中心问题是:语言究竟是怎样组织起来传输信息的?人又是怎样从一连串的语言符号中获取信息的?

这一领域的研究将涉及自然语言,即人们日常使用的语言,包括中文、英文、俄文、日文、德文、法文等等,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

目前存在的问题有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强语用学的研究才能逐步解决。另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮存量和运转速度大大提高之后,才有可能适当扩大范围.

以上存在的问题成为自然语言理解在机器翻译应用中的主要难题,这也就是当今机器翻译系统的译文质量离理想目标仍相差甚远的原因之一;而译文质量是机译系统成败的关键。中国数学家、语言学家周海中教授曾在经典论文《机器翻译五十年》中指出:要提高机译的质量,首先要解决的是语言本身问题而不是程序设计问题;单靠若干程序来做机译系统,肯定是无法提高机译质量的;另外在人类尚未明了大脑是如何进行语言的模糊识别和逻辑判断的情况下,机译要想达到“信、达、雅”的程度是不可能的。

信息系统

信息系统(Information system)是由计算机硬件、网络和通讯设备、计算机软件、信息资源、信息用户和规章制度组成的以处理信息流为目的的人机一体化系统。

功能

信息系统的五个基本功能:输入、存储、处理、输出和控制。

输入功能:信息系统的输入功能决定于系统所要达到的目的及系统的能力和信息环境的许可。

存储功能:存储功能指的是系统存储各种信息资料和数据的能力。

处理功能:基于数据仓库技术的联机分析处理(OLAP)和数据挖掘(DM)技术。

输出功能:信息系统的各种功能都是为了保证最终实现最佳的输出功能。

控制功能:对构成系统的各种信息处理设备进行控制和管理,对整个信息加工、处理、传输、输出等环节通过各种程序进行控制。

结构

1 基础设施层 由支持计算机信息系统运行的硬件、系统软件和网络组成。

2 资源管理层 包括各类结构化、半结构化和非结构化的数据信息,以及实现信息采集、存储、传输、存取和管理的各种资源管理系统,主要有数据库管理系统、目录服务系统、内容管理系统等。

3 业务逻辑层 由实现各种业务功能、流程、规则、策略等应用业务的一组信息处理代码构成。

4 应用表现层 是通过人机交互等方式,将业务逻辑和资源紧密结合在一起,并以多媒体等丰富的形式向用户展现信息处理的结果1。

汉字信息处理系统

指能处理汉字的计算机系统,由硬件和软件两部分组成,能输入输出汉字及进行汉字处理。硬件除有一般的计算机设备外,还应有汉字输入设备,汉字输出设备以及汉字字库或汉字发生器等。软件主要有汉字处理程序(对汉字的输入、检索、加工及输出格式等进行处理的程序)、汉字库调用程序、汉字文件编辑程序和其他有关的应用程序等。

汉字的输入设备决定于系统采用的汉字输入方法。汉字的输入方法很多,主要有以下几种:(1)把汉字分类定义在键盘的各个键上,一般是一个键上定义4个汉字,先按某个功能键,再按某个键,便输入某个汉字。因为汉字很多,这样汉字输入的键盘就很大,叫大键盘输入方法。(当然有的专用系统,用的汉字少,也有用小键盘的)。(2)按照某种计算机汉字编码法,用标准键盘便可输入汉字。汉字编码方法很多,全国有几百种,现在用得较多的有:区位码输入法、拼音输入法、笔形编码法、五笔输入法、联想输入法等。(3)把汉字的偏旁部首定义在键盘的各个键上,按键即输入用偏旁部首组成的汉字。不管哪一种输入方法,都要有软件支持,都是输入一个代码,然后经过程序处理,存入计算机一个汉字机内代码。

汉字输出设备有显示器和打印机等。一般的字符显示器在软件的支持下,都可把汉字点阵显示出来;打印机一般采用针式打印机,16针、24针、32针的打印机,采用点阵印刷方式,打印出汉字点阵,字形都比较好看;也有采用激光打印机的,速度更快些。无论是显示或打印输出,都是在软件支持下,把汉字点阵送到输出设备上,驱动输出点阵组成汉字的。汉字点阵码事先存在汉字点阵字库里,由汉字处理软件按汉字机内码,取出该汉字的点阵码送给输出设备。

汉字信息处理系统除有专用的汉字输入输出设备和汉字处理程序外,还应有汉字处理应用程序,如汉字情报处理程序和办公事务处理程序等。当然,一般微型机配上了汉字操作系统(CCDOS)以及相应的应用程序,如Wordstar字处理程序、dBASE数据库程序等,也可看作是一个小汉字处理系统2。