简介
请求问答系统是一种问答系统,即根据用户请求,返回一个用户一个答案。一般分为3个部分:问题理解,知识检索以及答案生成。问题理解是指对于自然语言输入的问题,首先需要理解问题问的是什么:是在问一个词语的定义,是在查询某项智力知识,等等,只有准确地理解问题,才有可能到正确的知识库检索答案。
问答系统问答系统(Question answering),是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。
截至目前为止,最著名的问答系统应属IBM的沃森系统。该系统在2011年于Jeopardy节目中,与人类同场较劲,并获得最后的胜利。
分类我们可以从知识领域、答案来源等角度来替问答系统做分类。从知识领域来看,可分为“封闭领域”以及“开放领域”两类系统。封闭领域系统专注于回答特定领域的问题,如医药或特定公司等。由于问题领域受限,系统有比较大的发挥空间,可以导入如专属本体论等知识,或将答案来源全部转换成结构性资料,来有效提升系统的表现。开放领域系统则希望不设限问题的内容范围,天文地理无所不问。系统中所有知识与元件都必须尽量做到与领域不相关,当然难度也相对地提高。
若根据答案来源来区分,可分为“数据库问答”、“常问问题问答”、“新闻问答”、“互联网问答”等系统。数据库是最常见的结构化资料储存媒介。虽然透过操控SQL语言便能够有效率地存取资料,但有些系统试图提供更直觉的自然语言查询界面,希望能进一步降低学习门槛。1970年代的LUNAR系统算是早期成功的案例,其正确答题率可以达到百分之七十,可回答月球陨石相关资料。微软的English Query则是近期的一个商业产品。English Query在剖析完英文问句后,会根据底层数据库结构,自动产生出相对应的SQL查询。虽然有这些成功系统案例,但数据库问答系统似乎很难被大众所接受,其中一个因素可能是因为对于结构化资料来说,结构化的查询界面在查询上更为方便。常问问题(Frequently Asked Questions, FAQs)是公司或者长期经营领域中常见的重要资源。一份FAQ资料包含了一个问句以及相对应的答案描述。FAQ问答系统的主要责任在比对使用者问句与现有FAQ问句的相似度,此与其他问答系统着重在答案语料中撷取答案的作法不同。另一种重要的系统为新闻问答系统。今日新闻媒体都已经数字化了,每日累积所产生的新闻资讯量是相当可观的,加上新闻的内容广泛丰富,作为开放领域问答系统的答案来源是最适合不过的。这样的特性使得此类系统的评估较为容易,因此稍后会提到的国际评估会议都是采用此类系统作为评估对象。最后一类的是互联网问答系统,这些系统利用搜索引擎回传的结果网页,从中撷取答案。主要挑战在于如何处理网络多异质性的资料,以及高噪声网页过滤等问题。
知识检索概述关于知识检索的概念迄今为止还没有形成一个统一的定义,常见的关于知识检索概念的表述有以下几种:
① 知识检索,就是综合应用信息管理科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知洪源(文本、图像、视频、声音等),并能准确精选用户需要的结果。
② 知识检索是指在知识组织的基础上,从知识库中检索出知识的过程,是一种基于知识组织体系,能够实现知识关联和概念语义检索的智能化的检索方式。
③ 知识检索是针对信息检索中存在的语义性较差、智能性低、知识性较弱等现状提出的一种基于语义和知识关联 运用知识处理技术和知识组织技术,实现信息查询语义化、智能化的一种高级信息检索方式1。
特征知识、建立知识系统的方法和手段。知识检索是通过对文档原文信息进行语义上的自然语言处理,析出各种概念信息,形成知识库,从概念层次上处理用户的检索提问式。利用知识检索不仅能检索出包含有提问式中的关键词的结果。还能检索出那些与该词同属一类概念的词汇的结果。知识检索有以下几个特点:
(1)利用特定领域可控的概念语义体系,建立层次结构的概念语义体系,具有分析和理解自然语言的能力。知识检索模型对文档内容和用户检索提问式运用自然语言处理技术进行语义层次上的分析和理解,从中吸取出概念信息和范畴信息。
(2)拥有知识库。在知识检索中,文档内容和提问式都以概念和范畴等知识形式存储在知识库中,用来匹配用户的提问式和推理出满足用户需求的新信息。
(3)具有记忆能力。知汉检索通过记忆机制,将析出的概念信息和范畴信息存储到知识库中.并能自动补充与更新,还能进行必要的逻辑推理。
(4)人机接口。知识检索能根据文档内容和用户提问式构造检索要点并输入系统,其输出的是按用户要求进行加工的结果,并可以自然语言的形式提供给用户。
知识检索的理论基础知识检索的提出和发展借助于人工智能、语言学、信息科学和认知科学等多学科的先进理论与方法,它们为知识检索的实现,包括知识发现、获取、组织、呈现以及向用户个人知识的转变等各个方面提供了理论指导。国外对此进行了大量研究,并取得了相应的研究成果。
1.人工智能
人工智能(Artificial Intelligence)是有关智能代理的设计与执行的科学,关注人脑智能任务如定理证明、外貌识别、疾病诊断等的自动化。“人工智能依据人类的感知、推理、学习、语言和其他创造性思维活动,为科学、工业、文化领域有效的新研究工具的设计、构造提供有益的帮助。”“人工智能为自动信息搜索、知识表示、自适应、自主学习以解决问题、设计规划、自主分析、知识检索及发现等提供了理论指导。”JVasant Honavar明确提出人工智能是知识检索智能化、自动化及其他相关知识活动的理论基础。
2.语言学
知识与语言之间存在着同构关系,知识是语言所表达的思想内容,语言是知识的表达工具。知识的表现有其特定的语言逻辑,相应的知识检索也必须遵循这些语言逻辑,语言学(Linguistics)为知识检索的过程和方法提供了必需的理论依据。InventionMachine Corporation(IMC) 根据语言学规律开发的语言数据库包括大量的基本词典与基于算法的复杂规则,对数据库中所有信息进行预格式处理(Pre— format)、词汇分析(Lexical Analysis)、语法分析(Syntactical Analysis)、语义分析(Semantic Analysis)和语用分析(Pragmatic Analysis),实现了机器自动阅读并理解文档内容,抽取检索提问的相关知识返回给用户,有助于提高知识检索的速度及准确度。
3.信息科学
信息科学(Information Science)研究人如何生产、搜索、检索和使用信息,特别是人与信息系统的相互作用。信息科学着重于许多不同性质的过程,包括人所面临的信息难题,如解决问题的水平、认识水平和知识水平,应用信息检索系统的查找行为,以及诸如反馈、相关性等互动性问题。Brookes提出的信息科学的基本方程—— △I+(s)=(S+△S)在信息处理和信息改变代理两个概念之间架起了一座桥梁,提出了信息与知识关系的框架,对研究信息的利用及信息向个体知识的转化指明了方向。
4.认知科学
认知科学(Cognitive Science)以认知过程及其规律为研究对象,研究领域包括:语言习得、阅读、话语、心理模型、概念和归纳、认知技艺获得、视觉注意、记忆、行为、计算机及其科学理论等。Belkin的“知识非常态”理论、Dervin的意义建构理论等都注重知识获取过程中人的认知能力在构建概念体系方面的作用,特别关注在此过程中以用户知识需求为导向以及双方的交互作用。因而在构建知识检索系统时应考虑支持检索的认知过程和检索本身的认知过程的最优化方法2。