语音识别技术及研究现状
语音识别的研究目标是让计算机“听懂”人类口述的语言。这里,“听懂”有两层含义:第一是将这种口述语言逐词(字)逐句地转换为相应的书面语言(即文字);第二是对口述语言中所包含的要求或询问做出正确的响应,而不拘泥于把所有字词正确转换为书面文字。可以说,语音识别是建立计算机听觉系统的基础,它使得人与计算机之间利用自然语言进行通信成为可能。
语音识别技术的研究起始于20世纪50年代初期,但直到60年代中期以后才逐步取得实质性进展。进入70年代后,得益于来自不同领域和部门应用需求的强力推动,语音识别进入一个研究高潮期,并在80年代中期陆续推出了一些较简单的商品化语音识别系统。要了解语音识别技术的研究进展情况,可以从以下几个方面来认识。
1、词汇表大小
每一个语音识别系统都必须有一个词汇表,系统只能识别词汇表中所包含的词条。词的数量越多,则系统的实现越困难。困难主要来自:第一,词条越多,则相似的词越多,由于分辨相似词的困难,误识率相应增加;第二,随着词数增多,搜索运算的计算开销会迅速增加。目前,词汇表规模大小的划分标准一般是:词数小于100时称为小词汇表;100到500称为中词汇表;超过500时称为大词汇表。
2、讲述方式
按照讲述方式的不同,语音识别可以分为孤立词、连接词和连续语音三种识别方式。孤立词识别(IWR)方式是指说话人每次只说一个词、一个词组或一条命令来让识别系统识别,其中的词组或命令在词汇表中都算作一个独立词条。连接词识别(CWR)一般特指对10个数字(0-9)连接而成的多位数字的识别,有时还可加上少量的操作指令。连接词识别应用系统在电话语音拨号、信用卡号码验证、计算机操作命令及工业控制命令识别等场合用途很广。连续语音识别(CSR)是指对说话人日常自然讲述方式的识别。显然,上述三种不同方式的识别研究,其困难程度是依次递增的。
3、服务对象
语音识别系统可以是只针对一个用户服务的,例如个人专用的语音打字机,这种系统称为特定人工作方式。系统若是针对任何人的,则称为非特定人方式。显然,后者的实现难度要远大于前者。
4、识别器需完成的任务
在语音打字机这一类任务中,要求识别器正确无误地将口述语言逐词逐句转换为书面文本。在问询、查询和控制系统中,需要对用户的要求做出正确响应,而用户在说话中常带有语气词和一些不必要的添加话语,这时识别系统只需识别其中关键的词条。更高级一些的识别系统则需要了解话语的语义信息和语用信息,这将涉及到自然语言理解的研究范畴。
5、其他
在语音识别研究中,还涉及到语音质量、应用领域的宽窄、句法约束等方面的一些因素。例如,语音质量方面,当识别器在安静的环境中工作,可以获得较好的效果;而在强噪声(例如汽车、飞机、工厂等)或者多人同时说话的嘈杂环境中,识别器则需要克服较大的困难才能够适应这种情况。
目前,对于特定人、小词汇表、孤立词语音识别问题,研究人员已经取得了很大成功,这类语音识别系统一般按照简单的模板匹配原理工作:在训练阶段,用户将词汇表中的每一个词依次说一遍,将其特征向量序列作为模板存入模板库中;在识别阶段,将输入语音的特征向量序列依次与模板库中的每一个模板进行相似度比较,将相似度值最高者作为识别结果输出。但是,这种系统的应用能力非常有限,在很多应用环境中,需要的是能够满足大词汇表、连续语音、非特定人的语音识别技术和识别系统。因此,进入90年代以来,语音识别研究的主攻方向是基于大词汇表和非特定人的连续语音识别问题,采用的研究思路主要有两条:基于规则描述的知识工程或人工智能方法和以隐马尔可夫模型(HMM)为基本框架的概率统计方法。其中,后一种方法要更为有效些,它从声学-语音层直到句法层,将全部语音的统计知识容纳在一个统一的、易于计算的HMM框架之内。1
语音检索常用方法利用大词汇语音识别技术检索这种方法是利用自动语音识别(ASR)技术把语音转换为文本,从而可以采用文本检索方法进行检索。虽然好的连续语音识别系统在小心地操作下可以达到90%以上的词语正确度,但在实际应用中,如电话和新闻广播等,识别率并不高。即使这样,ASR识别出来的脚本仍然对信息检索有用,这是因为检索任务只是匹配包含在音频数据中的查询词句,而不是要求一篇可读性好的文章。例如,采用这种方法把视频的语音对话轨迹转换为文本脚本,然后组织成适合全文检索的形式支持检索。
基于子词单元检索当语音识别系统处理各方面无限制主题的大范围语音资料时,识别性能会变差,尤其当一些专业词汇(如人名、地点)不在系统词库中时。一种变通的方法是利用子词(Sub Word)索引单元,当执行查询时,用户的查询首先被分解为子词单元,然后将这些单元的特征与库中预先计算好的特征进行匹配。
基于识别关键词检索在无约束的语音中自动检测词或短语通常称为关键词的发现。利用该技术,识别或标记出长段录音或音轨中反映用户感兴趣的事件,这些标记就可以用于检索。如通过捕捉体育比赛解说词中“射门”、“进球”的词语可以分别标记比赛中射门和进球的语音内容。
基于说话人的辨认进行分割和索引这种技术是简单地辨别出说话人话音的差别,而不是识别出说的是什么。它在合适的环境中可以做到非常准确。利用这种技术,可以根据说话人的变化分割录音,并建立录音索引。例如,用这种方法对电台节目、会议录音进行分割和分析,分割出来不同区段分别对应不同的说话人或声学类型(例如静音、掌声、音乐、广告声等),而在用户界面方面,考虑以时间线的形式显示分割的区段,这样用户就可以方便地直接浏览长段会议音频资料。2