版权归原作者所有,如有侵权,请联系我们

[科普中国]-音频视频信号压缩技术

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

音频视频信号压缩技术 (audio-video signal compression technology) 对声音和图象数据进行压缩的数字编码技术。它是信息论中的通信编码理论与计算机图象处理、声音处理相结合的用于多媒体系统的综合技术。根据编码中信息的保持情况可分为有失真和无失真编码两大类。

简介伴随着多媒体技术应用的日益普及,要传输、处理、存储包含文本、图形、图像、音频、视频在内的多媒体数据。音频视频信号采用数字化表示后数据量十分庞大,例1秒钟视频的彩色数字图象数据量高达150Mb 左右,对它们进行数据压缩,是多媒体系统中的关键技术。它的主要任务是在保证声音图象质量的情况下,尽量减少所需要的数据量(即比特数)。由于在声音图象数据中存在着大量的冗余数据,减少这些冗余可达到压缩的效果。另外,利用人的听觉视觉心理特点,也可用较少的数据表达同样主观效果的声音图象信息1。音频视频信号压缩技术简单来说是指对音频视频信号进行压缩编码的技术,数据压缩手段可以把信息数据压下来,以压缩形式存储和传输,既节约了存储空间,又提高了通信干线的传输效率,同时也可使计算机实时处理音频、视频信息,以保证播放出高质量的视频、音频节目成为可能。用于声音图象数据压缩的编码方法甚多。从压缩的方法来看,主要可分为变换编码、预测编码和统计编码等三大类。

压缩的方法变换编码

这里主要指正交变换。它将原先的时域的声音信号或空间的图象信号变换到另一个矢量空间(变换域),从而得到变换系数。若系数的分布比较集中,那么可用这些少量的数据同样表述原有的信息。对这些系数进行量化、编码,就可以达到压缩编码的目的。正交变换应是可逆的,但是由于利用系数分布集中的特点,当舍去集中区域外的那些系数后的逆变换就会产生一定的误差。一个好的正交变换 ,舍去集中区域外的系数值后,进行的逆变换得到的图象和声音与原先图象和声音质量相差不大。这就达到了在基本保质的前提下较大的提高数据压缩率的目的。常用的变换有离散傅里叶变换(DFT)、离散余弦变换 (DCT)、沃尔什变换、哈尔变换、K-L 变换。其中 K-L 变换是基于统计特性的变换,能量集中、系数相关性好。但是计算非常复杂,难以应用在实时系统中。沃尔什变换和哈尔变换的特点是用方波作为正交函数, 计算简单,适于计算机处理。而离散的余弦变换具有 K-L 变换的优点且计算复杂度适中,是用于实时视频压缩变换的主要方法。

预测编码

利用声音和图象在时间、空间上相邻的信号数据相关性较高的特点,把信号的值变换成相对值,这些相对值变化范围较小,经过量化和编码后可以用较少的比特数来表示。预测编码法

中的相对数据并不是简单的前后相邻数据之差,而是按一定的预测规则从前面的数据来预测后面的数据,再与实际数据求得相对值。若预测值较正确,则可以得到非常小的数据值。常用的预测编码方法是差分脉冲编码调制(DPCM)编码法。它的优点是结构简单,效率较高。但是当输入信号变化较大时,编码质量会受到影响。具有自动适应输入变化的预测编码器称为自适应差分脉冲编码调制 (ADPCM)编码器,它可改善压缩质量,有时可得到较高的数据压缩率。

统计编码

根据被编码的符号出现概率不同这一特点,对概率大的符号使用较短的代码,而概率小的符号使用较长的代码进行编码,从而使整体上减少比特数。统计编码又称熵编码,常用的统计编码有 Huffman 编码,Shannon-Fano 编码和算术编码,它们均是变长码。Huffman 码是一种普遍使用的熵编码,它具有计算简单,便于硬件实现等特点。Shannon-Fano 码的特性与 Huffman 码相似。算术编码计算比较复杂,但具有较高的数据压缩率,而且不必保存和传输码表。对数字图象还有行程码和等值线码两种常用压缩编码。前者把图象(行)扫描过程中相邻的具有相同数值的象素串用它们的串长度和象素值来表示。等值线码采用边界曲线来表示图象中的具有相同值象素区域。这两种编码法同样对色彩分布均匀的图象具有较好的压缩效果。在实际的多媒体系统中,单一的编码法所产生的数据压缩率常常不能满足系统的需要。因此采用多种基本编码法相结合的方案,称为混合编码。好的混合编码可达到相当高的压缩率, 同时具有计算量适中,抗干扰能力强的优点。由于音频和视频的结构复杂程度不同,数据压

缩编码方案亦不相同。音频信号是随时间变化的一维信号,它的采样频率一般不超过48kHz 左右,由于两个相邻的样本之间有较高的相关性,因此常采用DPCM为主的各种预测编码法,或与线性预测编码相结合的混合编码。前者可获得较好的音质,压缩率一般1:3~1:4左右 ,后者在保持音质的同时有较高的压缩率。视频信号的特点是数据量大,但空间的冗余度亦大。它们可分为静态图象和动态图象两种编码方案。静态图象采用离散余弦变换 (DCT)、 行程码和熵编码相结合的混合编码方案,减少帧内图象的冗余度,压缩率可达1:10~1:50。而动态图象采用帧内压缩与帧间插补相结合的复杂编码方法,可使压缩率达1:100~1:200 左右。两种图象编码均有国际标准。由于音频、视频压缩编码的计算量相当大,一般的计算机很难满足实时性要求,因此采用专用硬件来实现。特别是专用高速处理芯片将是解决该问题的关键技术。而国际标准的制定 , 将会促进这些专用高速芯片技术的研究和开发。

数据冗余音频、图像和视频数据中主要包含以下几种冗余:

空间冗余:图像是由数十万个像素组成的,每个像素之间具有很大的相关性,在传送时会出现连续传送很多相同的数据,这就成为空间冗余。 这种冗余可以用某种编码来去除。

时间冗余:时间冗余反映在图象序列中就是相邻帧图象之间有较大的相关性,一幅图象中的某些物体或场景可以由其他帧图象中的物体或场景重构出来。音频的前后值之间也同样有时间冗余。

信息熵冗余:也称编码冗余,它是指一块数据所携带的信息量少于数据本身所产生的冗余。例如,利用等长码表示信息就比不等长码如 Huffman 编码表示信息量存在冗余。

结构冗余:指图像各部分结构类似性所产生的冗余。例如,方格状的地板,蜂窝,砖墙,草席等图结构上存在冗余。已知分布模式,可以通过某一过程生成图像。

知觉冗余:所谓知觉冗余就是指人们的视觉或者听觉分辨力不敏感时,失真处理了一些无关紧要的信息,此时对于图像和声音质量的降低人们是感觉不到的。例如,人的视觉对于图像边缘的急剧变化不敏感,对图像的亮度信息敏感,对颜色的分辨率较弱等,因此如果图像经压缩或量化发生的变化(或称引入了噪声)不能被视觉所感觉,则认为图像质量是完好的或是够好的,即图像压缩并恢复后仍有满意的主观图像质量。

有损压缩编码和无损压缩编码根据解码后的数据与原始数据是否一致进行分类,压缩方法可被分为有损压缩编码和无损压缩编码两大类。

无损压缩:压缩后的数据经解压缩还原后,得到的数据与原始数据完全相同,是一种基于信息熵原理的可逆的编码方法。其原理是统计压缩数据中的冗余部分。适合于由计算机生成的图像,它们一般具有连续的色调。但一般对数字视频和自然图像的压缩效果不理想,因为这类图像色调细腻,不具备大块的连续色调。常用的无损压缩算法有行程编码、Huffman编码算术编码以及 LZW 编码等。常用在原始数据的存档,如文本数据、程序以及珍贵的图片和图像等。

有损压缩:压缩后的数据经解压缩还原后,得到的数据与原始数据不完全相同,是一种可逆编码方法。由于图像或声音的频带宽、信息丰富,而人类视觉和听觉系统对频带中某些频率成分并不敏感,有损压缩以牺牲这部分信息为代价,换取了较高的压缩比。常用的有损压缩算法有:PCM、预测编码、变换编码、插值与外推等。新一代的数据压缩方法有子带编码、基于模型的压缩、分形压缩及小波变换等。几乎所有高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。其丢失的数据与压缩比有关,压缩比越小,丢失的数据越多,解压缩后的效果越差。

本词条内容贡献者为:

王慧维 - 副研究员 - 西南大学