版权归原作者所有,如有侵权,请联系我们

[科普中国]-计算机的听与说

科普中国-绿色双碳
原创
聚焦绿色低碳技术理念 科普助力“双碳”目标实现
收藏

声音是由物体振动产生的声波。既然是声波,那就具有声波的特性:频率和强度。声波的频率决定着我们听到的声音是尖细还是粗犷;声波的强度决定着我们听到的声音是大还是小。我们之所以可以听到声音,是由于耳朵中的鼓膜被空气震动带动,听觉系统把振动变成电信号,然后又通过神经传递给了大脑。

耳朵

人类可以通过身体自带的听觉系统听到声音,可是,计算机既没有耳朵又没有听觉系统,它是怎么听到声音的呢?要想让计算机听到声音,那就需要一个麦克风和声卡。因为麦克风里面有个薄膜,这个薄膜就相当于我们耳朵中的鼓膜。麦克风负责接受空气的振动,并把这些振动转化成电信号。声卡负责把电信号识别出来,并把这些电信号转换成计算机可以识别的二进制数据。

声波

因为声波是一种连续的波,而二进制的数据不是连续的数字信号,所以计算机听到的声音就不是连续的。为了去掉这些间断性,我们需要对声卡进行采样。采集样本的时间间隔越短,采样的频率就越高。相对来说,这种时间间断性就会越来越小,计算机听到的声音也会越来越保真,越贴近原声。

我们通过计算机可以听到声音,那么,计算机会不会说话呢?回想一下,当我们乘坐地铁或者公交时,每当车辆到站,车上都会播报类似这样的声音:“欢迎您乘坐北京地铁2号线,列车运行前方是崇文门站,乘车时请您坐稳扶好,下车的乘客请提前做好准备,崇文门车站是换乘站,有需要换乘地铁五号线的乘客请做好准备。”随后到了下一处换乘站时,这个类似的声音又会再次响起。如果这个声音是来自播音员一次次的播报,那么声音早就沙哑了,但是这个声音永远没有问题。这是为什么呢?

其实,这些声音都是计算机合成出来,然后保存下来的,只要按一下播放键就可以操作完成。这些声音在计算机合成的时候,操作人员输入一段文字,计算机就可以把它变成人的声音。它可以根据需求合成儿童、男声、女声。如果再加上翻译软件,还可以翻译各种语言。这样的工作,计算机可以很快完成,而且也不会累。

声音合成

计算机这种把文字变成语言的工作其实就是语音合成。语音合成的技术在最初时很简单,就像机器人一样一字一字地读出来。这给我们的感觉就是非常机械,非常生硬,没有任何感情。为了解决这一问题,人们就让计算机“学习”拼音,让计算机学会如何使用“声母”和“韵母”不同组合的发音,还让计算机学会了不同字和词组在一起时的升降调。这时候,人们发现再利用计算机进行语音合成时,合成的声音无论是方言、普通话还是外语,都变得富有感情了。

本作品为“科普中国-科学原理一点通”原创 转载时务请注明出处

内容资源由项目单位提供