[科普中国]-语音算法- · 科普中国网

语音识别研究的根本目的是研究出一种具有听觉功能的机器，能直接接受人的口呼命令，理解人的意图并作出相应的反应。语音算法是根据语音来检索和识别词语的算法，语音算法一般建立在声学模型上，通过语音算法学习的知识，对语音进行识别并进行检索。

简介在语音模型中，按照激励源的不同，可把语音分为三类浊音，位于声门处的准周期脉冲序列清音，位于声道的某个收缩区的空气湍流类似于噪声爆破音，位于声道某个闭合点处建立起来的气压及其突然释放。根据发声器官和语音的产生过程，在实际应用中为了简化语音信号产生的数字模型，激励源分为浊音和清音两类，浊音由周期性脉冲序列激励产生，清音由随机白噪声激励产生，为了使浊音的激励信号具有声门气流脉冲的实际波形，还需要将脉冲序列通过一个声门脉冲模型滤波器。语音算法简单来说通过人们的发音来识别和检索词语的算法，如Soundex是一种语音算法，利用英文字的读音计算近似值，值由四个字符构成，第一个字符为英文字母，后三个为数字。在拼音文字中有时会有会念但不能拼出正确字的情形，可用Soundex做类似模糊匹配的效果。例如Knuth和Kant二个字符串，它们的Soundex值都是“K530”。

Metaphone是一个语音算法，主要是用在英语单字或是辞汇发音的标引。Metaphone是由飞利浦、罗伦斯利用Soundex的缺陷来改善的算法。此算法是利用较大的英语发音规则，所以比Soundex更为精准。Metaphone也可作为内建式的工具，在PHP就有相关工具。后来原作者制作新版本的算法“Double metaphone”，比原本的算法还更加精准。该算法会转换相似的发音。

声学模型声学模型是语音识别系统中最底层的模型并且也是识别系统最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量系列与每个发音模板的距离，因为发音在每个时刻都受到其前后发音的影响，为了模仿自然连续语音中的协同发音的作用和鉴别这些协同发音，通常要使用复杂的声学模型，声学模型单元的大小(字发音模型、半发音模型或音素模型)对语音训练数据量大小、系统识别率、以及灵活性有较大的影响。对大词汇量语音识别系统来讲，通常识别单元小，则计算量也小，所需的模型存储量也小，但带来的问题是对应语音段的定位和分割较困难，识别模型规则也变得更复杂。通常大的识别单元在模型中应包括协同发音(指的是一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异)，这有利于提高系统的识别率，但要求的训练数据相对增加。近几十年比较成功的识别方法有:动态时间规整(DTw)技术、隐式马尔可夫模型(HMM)、人工神经网络(ANN)。

动态时间规整(DT哟技术，由于在训练或识别过程中，即使同一个人发同一个音时，不仅其持续时间长度会随机地改变，而且各音素的相对时长也是随机变化的。因此在匹配时如果只对特征向量系列进行线形时间规整，其中的音素就有可能对不准。60年代日本学者板仓(tIakura)提出了动态时间归整算法。算法的思想就是把未知量均匀地伸长或缩短，直到它与参考模式的长度一致时为止。在时间规整过程中，未知单词的时间轴要不均匀地扭曲或弯折，以便使其特征与模型特征对正，DTW的具体实现方法是采用动态归划技术(D)P，方法简单有效，对小词表孤立词识别系统非常有效。

隐式马尔可夫模型(HMM)是80年代引入语音识别的理论，它的出现使自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术，大多数成功的连续语音识别系统都是采用这种方法。HMM是对语音信号的时间系列结构建立统计模型，将其看作一个数学上的双重随机过程，一个是用具有有限状态的Markov链来模拟语言信号统计特征变化的隐含的随机过程，另一个是与Makrvo链的每一状态相关联的观测系列的随机过程，前者通过后者表现出来，但前者的具体参数(如状态数)是不可观测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个客观测的时变系列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性1。

特征参数检测到语音的起点后就可以开始对检测出来的语音信号段进行分析处理。从中抽取语音识别所需的信号特征，即对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，以获得影响语音识别的重要信息。语音特征参数是分帧提取的，每帧特征参数一般构成一个矢量，因此语音特征量是一个矢量序列。语音信号中提取出来的矢量序列经过数据压缩后便成为语音的模板。显然，特征的选取对识别效果至关重大，选择的标准应尽量满足：(1)能有效的代表语音特征，包括声道特征和听觉特征，具有很好的区分性;(2)各阶参数之间有良好的独立性:(3)特征参数要计算方便，最好有高效的计算方法，以保证语音识别的实时实现。

线性预测这一术语是维纳在1947年首次提出的，此后，线性预测应用于许多领域，1967年板仓等人最先将线性预测技术直接应用到语音分析和合成中。线性预测作为一种工具，几乎普遍地应用于语音信号信号处理的各个方面。这种方法是最有效和最流行的语音分析技术之一。语音信号是一种典型的时变信号，然而如果把观察时间缩短到十毫秒至几十毫秒，则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管进行模拟，这就是所谓的声管模型，简单地说声管模型是指人从喉到嘴边这一段发音腔是用一序列截面积不同的均匀声管来模拟，根据声管的声学模型，利用物理知识，可以计算出这段声管模型与信号处理理论中的全极点模型相类似。因此，可以应用信号处理中已有的算法对语音信号进行处理。

本词条内容贡献者为:

李嘉骞 - 博士 - 同济大学