[科普中国]-语音编码器-

语音编码器的主要功能就是把用户语音的PCM（脉冲编码调制）样值编码成少量的比特（帧）。这种方法使得语音在连路产生误码、网络抖动和突发传输时具有健壮性（Robustness）。在接收端，语音帧先被误码为PCM语音样值，然后再转换成语音波形。

简介在IP语音技术（VOIP）中常用的编码解码器，它们常被称为编码解器、语音编码器或者简称为编码器。语音编码器的主要功能就是把用户语音的PCM（脉冲编码调制）样值编码成少量的比特（帧）。这种方法使得语音在连路产生误码、网络抖动和突发传输时具有健壮性（Robustness）。在接收端，语音帧先被误码为PCM语音样值，然后再转换成语音波形。

分类语音编码器分为三种类形：（a）波形编器；（b）声码器；（c）混合编码器。

波形编码器会尽可能构出包括背景噪单在内的模拟波形。由于波形编码器作用于所有输入信号，因此会产生高质量的样值。然而，波形编码器工作在高比特率。例如：ITU-G.711规范（PCM）用的比特率为64Kbps。声码器（vocoder）不会再生原始波形。这组编码器会提取一组参数，这组参数被送到接收端，用来导出语音产生模形。线性预测编码（LPC）用来获取一时变数字滤波器的参数。这个滤波器用来模拟说话人的声道输出[WEST96]。在电话系统中使用声码器，语音质量不够好。在VOIP中常用的语音编码器是混合编码器，它融入了波形编码器和声器的长处，它的另一特点是它工作在非常低的比特率（4-6Kbps）。混合编码器采用合成分析（AbS）。

线性预测合成分析最常用的比特率在4.8kbps~16 kbps之间的语音编码器是基于模型编码器的，这些编码器都是线性预测合成分析（LPAS）方法。为了随着时间的变化模拟语音信号，线性预测语音产生模型必须用适当的信号来激励。每隔一段固定时间（如每隔20ms），语音模型参数和激励参数都必须做一次估计和更新，并用来控制语音模型。

压缩质量有损编解码在软件界有许多相对更加流行的编解码器是有损的，意味着它们压缩过程牺牲了一定的质量。通常这种压缩实际上同未被压缩的声音或图像没区别。更小的数据集缓解了相对高昂的存储器。较低的数据率也降低了花销并在数据传输过程中提升了品质。

无损编解码也有许多的无损压缩，特别应用于在需要原始流中所有信息时压缩模式下获取数据。如果保留数据流的原始品质比削减相应的更大数据更加重要，那么无损压缩更佳。连续使用多种编解码器或者编码体系也会显著的降低质量。不断下降的存储空间开销和网络带宽正使得有损压缩的需求下降1。

评价评估编码器的性能时要考虑几个重要因素。这些因素如下提示：

帧大小：帧的大小表示语音流量的时间长度，也称为帧时延。帧是语音信号的分立部件，且每帧是根据语音样点更新的。本介绍的编码器都是一次处理一帧。每帧信息各放在各语音分组中，并传送给接收端。

处理时延：它表示在编码器中对一帧语音做编码算法处理所需时间。它通常简单计入帧时延。处理时延好称为算法时延。

前视时延：编码器为了对当前帧的编码提供帮助而检查下一帧的一定长度，此长度就称为前视时延。前视的想法是为了利用相邻语音帧之间的密切相关性。帧长度：这个值表示经编码处理后的字节数（不包括帧头）。

语音比特率：当编码器的输入是标准脉冲编码调制的语音码流（比特率为64 kbit/s）时，编解码器的输出速率。

本词条内容贡献者为:

张磊 - 副教授 - 西南大学