[科普中国]-计算机的听与说-

声音是由物体振动产生的声波。既然是声波，那就具有声波的特性：频率和强度。声波的频率决定着我们听到的声音是尖细还是粗犷；声波的强度决定着我们听到的声音是大还是小。我们之所以可以听到声音，是由于耳朵中的鼓膜被空气震动带动，听觉系统把振动变成电信号，然后又通过神经传递给了大脑。

耳朵

人类可以通过身体自带的听觉系统听到声音，可是，计算机既没有耳朵又没有听觉系统，它是怎么听到声音的呢？要想让计算机听到声音，那就需要一个麦克风和声卡。因为麦克风里面有个薄膜，这个薄膜就相当于我们耳朵中的鼓膜。麦克风负责接受空气的振动，并把这些振动转化成电信号。声卡负责把电信号识别出来，并把这些电信号转换成计算机可以识别的二进制数据。

声波

因为声波是一种连续的波，而二进制的数据不是连续的数字信号，所以计算机听到的声音就不是连续的。为了去掉这些间断性，我们需要对声卡进行采样。采集样本的时间间隔越短，采样的频率就越高。相对来说，这种时间间断性就会越来越小，计算机听到的声音也会越来越保真，越贴近原声。

我们通过计算机可以听到声音，那么，计算机会不会说话呢？回想一下，当我们乘坐地铁或者公交时，每当车辆到站，车上都会播报类似这样的声音：“欢迎您乘坐北京地铁2号线，列车运行前方是崇文门站，乘车时请您坐稳扶好，下车的乘客请提前做好准备，崇文门车站是换乘站，有需要换乘地铁五号线的乘客请做好准备。”随后到了下一处换乘站时，这个类似的声音又会再次响起。如果这个声音是来自播音员一次次的播报，那么声音早就沙哑了，但是这个声音永远没有问题。这是为什么呢？

其实，这些声音都是计算机合成出来，然后保存下来的，只要按一下播放键就可以操作完成。这些声音在计算机合成的时候，操作人员输入一段文字，计算机就可以把它变成人的声音。它可以根据需求合成儿童、男声、女声。如果再加上翻译软件，还可以翻译各种语言。这样的工作，计算机可以很快完成，而且也不会累。

声音合成

计算机这种把文字变成语言的工作其实就是语音合成。语音合成的技术在最初时很简单，就像机器人一样一字一字地读出来。这给我们的感觉就是非常机械，非常生硬，没有任何感情。为了解决这一问题，人们就让计算机“学习”拼音，让计算机学会如何使用“声母”和“韵母”不同组合的发音，还让计算机学会了不同字和词组在一起时的升降调。这时候，人们发现再利用计算机进行语音合成时，合成的声音无论是方言、普通话还是外语，都变得富有感情了。

本作品为“科普中国-科学原理一点通”原创转载时务请注明出处