音频文件格式专指存放音频数据的文件的格式。存在多种不同的格式。
简介一般获取音频数据的方法是:采用固定的时间间隔,对音频电压采样(量化),并将结果以某种分辨率(例如:CDDA每个采样为16比特或2字节)存储。采样的时间间隔可以有不同的标准,如CDDA采用每秒44100次;DVD采用每秒48000或96000次。因此,采样率,分辨率和声道数目(例如立体声为2声道)是音频文件格式的关键参数。
需要分清楚的是音频文件和编解码器不同。尽管一种音频文件格式可以支持多种编码,例如AVI文件格式,但多数的音频文件仅支持一种音频编码。
有两类主要的音频文件格式:
无损格式,例如WAV,FLAC,APE,ALAC,WavPack(WV)
有损格式,例如MP3,AAC,Ogg Vorbis,Opus
有损文件格式是基于声学心理学的模型,除去人类很难或根本听不到的声音,例如:一个音量很高的声音后面紧跟着一个音量很低的声音。MP3就属于这一类文件。
无损的音频格式(例如FLAC)压缩比大约是2:1,解压时不会产生数据/质量上的损失,解压产生的数据与未压缩的数据完全相同。如需要保证音乐的原始质量,应当选择无损音频编解码器。例如,用免费的FLAC无损音频编解码器你可以在一张DVD-R碟上存储相当于20张CD的音乐。
有损压缩应用很多,但在专业领域使用不多。有损压缩具有很大的压缩比,提供相对不错的声音质量。1
历史音频CD格式于1980年由飞利浦公司和索尼公司开发,并于1982年公布,此后很少改动。这种格式定义一首歌存放在一个CDDA文件中,输入采样率为44100次/秒(即44.1kHz),每个采样用16比特数据存储。立体声数据为1.4M比特/秒。
作为比较,MP3格式压缩比可以为1:12(同样是44.1k赫兹采样率,MP3: 112k比特/秒,CDDA:1.4 M比特/秒)。MP3格式开发始于1987年在德国的Fraunhofer IIS,历时4年,其间经历了算法的改进和音质提高。但是由于硬盘的价格较高,这项技术当时应用很少。
1996年,Winamp1.0版的发布成为MP3格式流行的催化剂。Fraunhofer开始向采用他们的算法的公司索要许可证费用,因此其他替代的免费算法开始被研发。LAME发布于1998年,并于此后成为主要的MP3编码器。最近以来,其它的MP3格式的挑战者包括高级音频编码或者叫AAC(用于苹果公司的iTunes)、Ogg Vorbis(一个无专利的自由编解码器)、Opus(是开放格式,标准定义于IETFRFC6716,有更低的延迟和更好的声音压缩率)。1
非压缩的数据格式目前存在多种非压缩数据格式,最流行的是WAV格式。WAV文件的格式灵活,可以储存多种类型的音频数据。对于保存原始的录音数据是一个好的选择。WAV格式是基于RIFF文件格式,RIFF格式与AIFF和IFF格式类似。
BWF(广播声波格式)作为WAV的后继者,是由欧洲广播联盟创建的一种标准音频格式。BWF文件中可以存放元数据。BWF文件也是也是基于RIFF文件格式的,扩展名是WAV。有关其信息参见:欧洲广播联盟:Specification of the Broadcast Wave Format - A format for audio data files in broadcasting(广播声波格式描述-一种广播用音频文件格式)。欧洲广播联盟技术文档3285, 七月1997年。2
无损压缩的数据格式APE庞大的WAV音频文件可以通过Monkey's Audio这个软件进行压缩为APE格式。被压缩后的APE文件容量要比WAV源文件小一半多。通过Monkey's Audio解压缩还原以后得到的WAV文件可以做到与压缩前的源文件完全一致。
FLAC格式的源码完全开放,而且兼容几乎所有的操作系统平台。它的编码算法已经通过了严格的测试,而且在文件点损坏的情况下依然能够正常播放。该格式不仅有成熟的Windows制作程序,还得到了众多第三方软件的支持。此外该格式是唯一的已经得到硬件支持的无损格式,Rio公司的硬盘随身听Karma,建伍的车载音响MusicKeg以及PhatBox公司的数码播放机都能支持FLAC格式。
Apple Lossless为苹果的无损音频压缩编码格式,可将非压缩音频格式(WAV、AIFF)压缩至原先容量的40%至60%左右,编解码速度很快。
WavPack允许用户压缩、取消复原8、16、24、32位整型以及32位浮点表示的WAV格式音讯档案,另外它还支持多声道资料流以及非常高的取样频率。另外WavPack引入了一种独特的“混合”模式,它使用一个附加的档案从而也具有了有损压缩的优点。2
有损压缩的数据格式MP3,为ISO/IEC国际标准,是现在最普及的一种数字音频编码和有损压缩格式,几乎所有的终端和软件都支持此格式。
AAC,为ISO/IEC国际标准,是MP3的下一代格式,压缩比MP3更高音质更好的音频压缩算法,因此得到了众多公司的支持。
Vorbis,Xiph.Org基金会开发,自由软件和没有专利的编解码器;能够完整保留20kHz下音质细节,采用可变比特率(VBR),动态调整比特率达到最佳的编码效果。
Opus,Xiph.Org基金会开发,IETF标准的开放格式,是Vorbis下一代格式,用单一格式包含声音和语音,具有低延迟特性,适用于网络上的即时声音传输。2
多声道格式从九十年代起,影院开始将音响系统升级为环绕声系统,它可容纳2个以上的声道。环绕声系统中最流行的是杜比数字(Dolby Digital)系统(或称AC-3)和数位影院系统(Digital Theater Systems,DTS)。这两种编解码器都是受版权保护的,其编码器和解码器须支付许可证费用才能获得。最流行的多通道格式叫做5.1,意思是5个环绕声道(左前、前中、右前、左后和右后)和一个低重音声道(因为人的耳朵无法区分低频率声音传来的方向)。2
本词条内容贡献者为:
李嘉骞 - 博士 - 同济大学