简介
头相关传输函数(Head—Related Transfer Func.tion,HRTF,也有文献称为双耳传输函数)描述了声波从声源到双耳的传输过程。它是人的生理结构(如头、耳廓以及躯干等)对声波进行综合滤波的结果。因为HRTF包含了有关声源定位的信息,所以它对于双耳听觉和心理声学的研究具有非常重要的意义;在实际应用中,利用耳机或扬声器重发用HRTF处理过的信号,可以虚拟出各种不同的空间听觉效果。这已广泛应用于虚拟声技术、多媒体与虚拟现实、室内声学模拟和家用声重发等领域。正因如此,HRTF成为现今国际上的一个热门研究课题。它吸引了大量包括声学、信号处理、生理学以及计算机技术方面的研究工作者从事这方面的研究。以下将评述国际上有关HRTF的研究进展和存在的问题。1
然而,现有的许多数据库在受试者样本、空间采样率等方面存在不足;并且,由于HRTF与受试者的生理结构以及尺寸有关,不同民族的生理结构和尺寸有所不同,因而基于西方人样本的一些统计结果并不一定适合中国人,而国内还没有开展这方面的研究。
HRTF的定义声源发出的声波经头部、耳廓、躯干等散射后到达双耳,其中的物理过程可视为一个线性时不变(LTI)的声滤波系统,其特性可由系统的频域传输函数完全描述。HRTF正是这个声滤波系统的频域传输函数。在自由场的情况下,HRTF定义为
其中,PL,PR分别是简谐点声源在倾听者左、右耳产生的复数声压。Po是人头不存在时,头中心位置处的复数声压。一般情况下HL,HR是声源的水平方位角θ、仰角Φ、声源到头中心的距离r以及声波的角频率Ω的函数
(对于远场,即r>1.2 m的情况,HL,HR基本上与r无关)。另外,由于不同人的头部、耳廓、躯干等的尺寸和形状不同,因而严格来说每个人的HRTF是不同的,也就是说HRTF是一个具有个性化特征的物理量。公式中a表示具有个性化特征的参量,如头部的尺寸。
由于HRTF描述了声波从声源到双耳的传输过程及其与头部、耳廓、躯干等的相互作用,因而它包含了有关声源定位的大部分信息。其中头部对声波的散射作用产生传统的声源定位因素,即双耳时间差(ITD)和双耳声级差(ILD),在不同的频段中两者的重要性不同。在中、低频(f4 kHz),ILD起主要作用。当声源位于中垂面上,相应的ITD和ILD近似为零,这时传统的双耳定位机理解释不了中垂面的声源定位。进一步的研究发现,在高频(f>5 kHz),当耳廓的尺度与波长可比时,它对声波的散射主要表现为HRTF函数在高频的前后不对称和频谱上的峰谷,这对区分前后镜像位置的声源和中垂面的定位有着重要的作用。最近的研究指出,躯干(特别是肩部,作用范围是0.8-1.2kHz)的反射声信息对上、下方向的声源定位也是重要的,而对水平面内的定位影响较小。也有研究指出,头发、衣服等对HRTF也有影响,但这些影响是否能带来可分辨的主观听觉效果还有待探讨。
值得指出的是,由于人的外耳由耳廓和耳道构成,而引起听觉感知的是鼓膜处的声压信号,所以最初式(1)中的PL,PR定义为鼓膜处的声压。考虑到耳道是一段长约2.5 cm、直径约8 mm的管,10 kHz以下的声波在耳道的传输可近似为一维声学传输。这种一维传输近似开始于耳道入口以外数毫米处。既然耳道的传输不会增加有关声源方位的信息,那么PL,PR可以用耳道任意截面处的声压来定义。H.Moller等用外耳的等效电路证明,PL,PR甚至可定义为耳道入口封闭时其上的声压。虽然按照不同测量点定义的HRTF有所不同,但是它们是等价的,可以相互转换。图1是F.L.Wightman等人对3个不同的真人在鼓膜处测量所得的HRTF振幅谱曲线。从图可以看出不同人的HRTF的个性化特征。另外,2.5~3.0 kHz的耳道共振峰也明显可见。
HRTF在时域的表述称为头相关脉冲响应(Head—Impulse Response,HRIR),也称为双耳脉冲响应),它与头相关传输函数HL,HR。互为傅里叶变换对:
HRTF的获取通过实验测量获取HRTF,实验测量HRTF可对特定的人工头或真人进行。前者得到的是特定(平均)的听觉模型情况下的HRTF数据,不能反映HRTF的个性化特征;后者虽然可以克服这个缺陷,但是真人在测量过程中容易发生轻微的头部及身体的移动(特别是在测量时间较长的情况下),这将破坏LTI的条件,带来测量误差。另外,在测量过程中真人可能会不自觉地产生一些噪声,也会影响测量结果。测量通常是在消声室中进行,被测对象位于坐标原点,扬声器布置在半径为r的球面上。
为简单起见,通常取r>1.2 m的远场,这时HRTF近似与r无关。为了测量不同空间方向的HRTF,需要改变扬声器与测量对象之间的相对位置,然后进行重复测量。这可通过2种方法进行,或固定被测对象的位置,借助机械设备改变扬声器的方位;或固定扬声器的位置,移动转椅改变被测对象的方位。当然也有在空间不同方向布置多个相同的扬声器,每次选用一个扬声器进行测量。这种方法较为复杂,并且扬声器对声波具有反射作用,这会影响测量的准确性。除非不得以,消声室中应当尽量减少放置物。
随着计算机应用的发展,目前头相关传输函数的测量过程完全可以采用软件控制。测量中,扬声器产生测量信号,而位于双耳处的传声器捡拾双耳声压信号。虽然可直接按式(1)计算频域的HRTF,但由于需要测量2次声压并涉及频域相除,所以比较繁琐。目前主要是先测量双耳脉冲响应HRIR,然后通过傅里叶变换得到HRTF。
理想的测量信号应当具有平直的频谱特性和低的峰值因子。伪随机信号与这种理想信号十分接近,所以测量信号多采用伪随机信号。由于伪随机信号中的MLS(最大长度序列)信号的自相关函数近似为6函数,所以通过将双耳声信号与原始的MLS进行互相关计算即可得到双耳脉冲响应。当然还需要对扬声器和传声器等的传输特性(频率响应)进行补偿,也可能要采用平滑、滤波等方法消除噪声。也有研究采用Golay信号作为伪随机测量信号。这种方法的缺点在于需要较长的测量时间。测量时间越长,被测对象发生轻微的移动的可能性越大。
如前所述,测量点可以选在从耳道入口开始到鼓膜间的任意截面处。对于人工头的情况,这还相对可行。但对于真人,虽然可将探针传声器放入耳道内测量,但由于测量位置不容易控制,同时考虑到探针传声器的频响等性能的限制,目前的研究多是采用微缩传声器对封闭耳道的HRTF进行测量。封闭耳道法可以避免耳道的个体差异对测量结果的影响;即使对人工头进行测量,封闭耳道法也可以省去耳道模拟器。
实验测量获取HRTF的方法有许多不足。首先它需要消声室以及测量设备,如果在普通房间进行,房间反射将制约着测量时间;其次,有一些方位的HRTF很难准确测量,特别是仰角小于一50。的方向;最后,如果要得到个性化HRTF,只有进行重复测量,而相应的工作量非常大。
通过计算获取HRTF从物理角度上讲,计算HRTF就是求解头部、躯干、耳廓等组成的系统对声波的散射问题,即在一定的边界条件下解波动方程。最简单的HRTF计算方法是将头简化为刚性圆球,将双耳简化为球面上相对(水平面+90°)的2点,然后用刚性圆球对平面入射波的Raylei散射公式计算。
虽然刚性圆球模型相对简单,但是由于它没有考虑头部的形状以及耳廓、躯干的影响,所以只是在尽3.0 kHz的情况下准确。作为改进,有人采用刚性椭球模型,结果较刚性圆球精确。也有研究提出可以将头视为由4个参数可变的四分之一椭球构成,以便准确地描述人头的形状和不对称性。
为了考虑躯干的影响,N.A.Gumerov等人提出“雪人模型”,将头部和躯干简化为2个不同半径的球,然后采用格林函数和多重散射的方法计算HRTF研。这种方法的优点是不仅可以计算躯干的反射对HRTF的贡献,还可以推广到头附近存在障碍物或刚性反射表面的情况。不足的是“雪人模型”仅是头部和躯干的一种粗略的近似;它所用到的数学方法也非常复杂。
由于只有将头部、躯干等简化成规则对称的几何形状时才有可能求出波动方程的解析解。考虑到实际的头部等并非简单的规则形状,需要用计算机数值计算的方法近似求解HRTF。常用的方法包括有限差分法、有限元法(FEM)、边界元法(BEM)等。有限差分和FEM是将微分方程转化为区域积分方程,它需要将空间积分区域离散化;而BEM是将微分问题转化为边界积分的问题,故只需要将边界离散化。易见BEM的优点在于方程组的阶数低,所需要准备的初始数据少。
HRTF的基础研究工作HRTF的在中国的基础研究工作包括中国人样本HRTF数据库的建立和基本特性的研究。
通过对52名受试者(男、女各26名)进行实验测量,建立了高空间分辨率的HRTF数据库,以及描述受试者头部、耳廓特征的17个生理参数的数据库。在此基础上,对与声源定位有关的因素进行了分析;证明了性别对最大双耳时间差有显著的影响,因而相关的研究应分别建立适合男性和女性的模型,至少应选择等量的男、女性受试者的数据进行统计平均,否则就会出现偏差。
进一步地,通过与国外CIPIC HRTF数据库进行比较,证明了中国人样本的最大双耳时间差和主要基于西方人样本的统计结果存在显著的差异,因此建立中国人样本的HRTF数据库是必要的,而直接引用国外数据进行中国人双耳听觉的研究可能会出现偏差。
除此之外,中国方面的相关专家研究了不同衣服对肩部反射以及HRTF的影响,发现耳廓可以消除或减少不同衣服对肩部反射和声源定位的影响,使得3.0 kHz以下的肩部反射能够成为一个稳定的声源定位因素。