技术原理
用言语作为人机之间的通信手段,较书面语更直接、更自然,也更快速。不经常使用计算机的人只要经过很少的训练便可运用复杂的计算机系统。使用者的手可以腾出来从事其他操作,这一优点在航天活动中尤为重要。
主要特点言语中词与词之间的界限是含糊的,语句的重音、语调、节奏等整体现象都会使原来为孤立词设置的声学模式失效,因此不能简单地将连续言语信号和孤立词语音信号的时间序列等同起来。在这种情况下,简单的匹配技术不再适用,必须在新的原理指引下寻求新的方法。人在听懂对方一句话时,除了声学信号外往往利用其他信息来估计话的内容,而并不需要听清每一个词的发音。从单纯依靠孤立词声学模式的匹配技术到综合运用语言学各类知识来解释声学信号,是方法论上的转变,这标志着从言语识别转入言语理解的新的研究阶段(见语音识别)。现代言语理解的实验系统往往采用自底向上和自顶向下相结合的方法。所谓自底向上就是利用语音学知识将输入语音信号同储存的声学模式匹配。而自顶向下则是运用其他类型语言学知识(包括语法、语义和语用等)对说话人言语中可能出现的词提出设想,以指引识别的方向;有时还需要在识别和理解言语后作出实时响应;如果这种响应也要求以言语形式作出,则还要运用言语合成技术。
发展历史言语理解的研究工作是从60年代研究孤立词识别系统开始的。主要应用的技术是将通过传声器输入的语音信号同存储于机内有限词汇中每一个词的声学模式相比较,根据某种距离准则寻求最佳匹配。能以相当高的精度识别 100以上孤立词的实用系统已经问世,但识别包含词组或整个句子的连续言语信号所遇到的困难则比预计大得多。
1976年开始出现几种能接收受限领域正常口述语句(连续言语)并能在合理时间内作出响应的实验性言语理解系统。词汇量规定为1000,响应误差小于10%。为了实现这一要求,言语理解系统需要运用包括语音学、音位学、词素学、韵律学、句法学、语义学和语用学等方面的多层次的知识。
对类型不同的大量知识综合运用,是知识工程的重大技术课题。为了解决这一问题,hearsay系统提出了知识源和黑板结构。每一类型(属于不同层次)的知识就是一个知识源,构成总知识库的一个分库。黑板结构是一种多级网络结构,构成新形式的全局数据库。各知识源之间的协作是通过黑板结构进行的。各知识源在黑板上写上自已对言语组成的设想,这一设想可被其他知识源肯定或否定,结论由系统的控制部分作出。HEARSAY系统的体系结构(图1)对所有知识型系统均有借鉴意义。图2为言语理解系统的工作过程。1