自适应矢量量化在语音信号处理中有广泛的应用 , 矢量量化是一种重要的信号压缩方法 , 在语音信号处理中起着非常重要的作用。
改进的Kohonen网络及图像自适应夫量量化针对图像矢量量化存在的分块效应问题,过对Kohonen自组织模型研究,修改了Kohonen的自组织特征映射(SOFM)算法,设计了两个DCT离散余弦变换)域的特征值 ,用于图像数据块的分类。在此基础上,进步探讨了改进的自组织特征映射(MSOFM)算法在图像自适应矢量量化中的应用。计算机模拟实验表明,MSOFM算法有效地减少了分块效应与SOFM算法相比具有更好的性能。1
矢量量化器的码书设计自从文献提出LBG算法来,矢量量化作为一种高效的数据编码技术已广泛地用于图像和语音信号的压缩。关于矢量量码书的设计虽已有诸多研究及改进,但仍然有一些关键问题正待解决。例如,对具有不同统计特性的图像信号,系统收发两端也需要作相应的改变,其结果一方面是增加了图像送的比特数,另一方面是加大了实时实现的困难,为了解决这个问题,人们把注意力转向新的码书设计算法。神经网络的兴起,正好为矢量量化器的码书设计找到了新的途径。
在众多的神经网络模型中,Kohonen的自组织特征映射模型(简称SOFM模型)最适合于设计矢量量化码书,用该模型设计的码书性能接近LBG算法设计的码书,且计算量小,抗干扰性好,前者还不象后者那样收敛特性受初始码书影响。然而, 这种SOFM算法设计的码书也未能解决矢量量化编码存在的一个重要缺陷,即编码图像出现方块效应,特别是当压缩比较高时,这种现象更为严重。为此,对SOFM算法进行了改进,并给出了实验结果。1
用MSOM算法实现的自适应矢量量化用MSOFM法设计的码矢为16维的码书,对128x128的图像进行矢量量化编码,在接收端恢复的图像具有较高的图像质量,但压缩比只有16倍,而用MSOFM算法设计的码矢为64维的码书, 对128x128的图像进行矢量量化编码,虽然具有42倍的高压缩比(考虑了矢量的归一化系数所需的比特数),但图像质量很差。为了解决压缩比和图像质量的矛盾,提出自适应矢量量化系统的自适应矢量量化编码方案。
与LBG算法相比,SOFM算法自适应性强,可以设计出性能最优的码书,并且Kohonen自组织神经网络具有高度并行计算结构,可以实时或准实时地实现矢量量化编码。通过对SOF算法的改进,减少了编码图像的分块效应,如果采用提出的自适应矢量量化编码方案,可以圆满地解决压缩比与图像质量的矛盾。计算机模拟实验表明,基于MSOFM算法的自适应矢量量化编码在保证一定图像质量的情况下,可以获得较高的数据压缩比。1
模糊聚类在自适应矢量量化码本训练中的应用自适应矢量量化在语音信号处理中有广泛的应用,提出了一种基于SFCM算法的自适应矢量量化码本的训练方法,其特点是通过模糊聚类方法,重新调整训练样本与码字之间的隶属度,达到最小编码失真,使码本更适合新说话人,且计算简单。方法的实验结果表明,可以使编码平均失真下降。2
矢量量化的信号压缩方法矢量量化是一种重要的信号压缩方法,在语音信号处理中起着非常重要的作用。矢量量化是对训练特征空间的最优划分,但是对于新的说话人,由于没有参加训练,原来的码本不一定是最优量化码本,可能具有较大的码失真。为了减小编码失真,可以进行说话人自适应。在语音识别系统中,常用的说话人自适应方法有:基于说话人分类的适应方式,基于谱映射的自适应方式,以离散HMM为框架的语音识别系统的自适应等。2
实验结果在实验中,用的语音信号样本集是男生的,有5466帧矢量,码本是用SFCM算法进行聚类分析得到的。第1个自适应样本集由没有参加训练的男生的共计3200帧矢量组成。自适应前的矢量编码平均失真和矢量数目与码字的关系是自适应后训练样本集合对新码本重新编码的结果,由于进行了码字修正,从男生矢量集自适应前平均失真、矢量数目与码本的关系可以看出平均失真下降了,而整个自适应训练样本集合的各个子集集合内矢量数目对码字的分布变化不大。
第2个自适应样本集由没有参加训练的女生的共计3215帧矢量组成。女生矢量集自适应前平均失真、矢量数 目与码本的关系是自适应前的矢量编码平均失真和矢量数目与码字的关系是自适应后训练样本集合对新码本重新编码的结果,由于进行了码字修正,从女生矢量集自适应前平均失真、矢量数目与码本的关系中可以看出平均失真下降了。
将SFCM算法用于码本的自适应训练,由于使用模糊隶属度来重新调整码字,使得码字在适用于原特征基础上更适合新特征,使编码平均失真降低。该方法计算简单,适用于离散HMM语音识别系统的话者适应。2
本词条内容贡献者为:
王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所