关键词检测(Spokenkeywordspotting或SpokenTermDetection)是语音识别领域的一个子领域。
简介关键词检测(Spoken keyword spotting或Spoken Term Detection)是语音识别领域的一个子领域,其目的是在语音信号中检测指定词语的所有出现位置。
主要有以下几种类型:
无约束语音中的关键词检测
孤立词识别
无约束语音中的关检测检测主要针对关键词没有被其他词分隔,并且在原句中没有语法信息。以下算法常被用于该目的:
滑动窗口和垃圾模型
K最优假设
迭代Viterbi解码
孤立词识别主要针对关键词在文本中通过静音进行分隔。应用到该问题的主要技术手段是动态时间规整技术。
语音识别语音识别(speech recognition;语音辨识/言语辨别)技术,也被称为自动语音识别(英语:AutomaticSpeechRecognition,ASR)、电脑语音识别(英语:ComputerSpeechRecognition)或是语音转文本识别(英语:SpeechToText,STT**)**,其目标是以电脑自动将人类的语音内容转换为相应的文字。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。
语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。1
历史早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。
1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding(LPC), 及动态时间规整Dynamic Time Warp技术。
语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Rabiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。
尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。2
本词条内容贡献者为:
黄伦先 - 副教授 - 西南大学