语言是人与人传达和获取信息的重要工具。随着社会的发展,让机器听懂人的语言已从梦想变成了现实。我们知道当声音通过媒介传到人的耳朵里,大脑会对语音进行处理并形成自己的理解,然后用语言或者行动应答。那么计算机是如何听懂人类语言的?这就要靠人机交互的重要技术——语音识别技术。
语音识别技术就是让机器把语音信号转变为相应的文本或命令。人与人之间的语言沟通会因为双方背景、文化程度、经验范围的不同,造成信息沟通不畅,让机器准确识别语音并理解则更加复杂。机器识别语音需要应对不同的声音、不同的语速、不同的内容以及不同的环境。语音信号具有多变性、动态性、瞬时性和连续性等特点,这些原因都是语音识别发展的制约条件。
20世纪50年代,AT&T贝尔实验室研发的Audry系统是世界上第一个可以识别10个英文数字的语音识别系统。20世纪80年代末,语音识别研究取得了重大突破,解决了大词汇量、连续语音和非特定人这三大障碍,首次把这三个特性都集成在一个系统中,比较有代表性的是卡耐基梅隆大学研发的Sphinx系统。20世纪90年代前期,各大公司都斥巨资进行语音识别系统的实用化研究。
目前的语音识别技术主要包括特征参数提取技术、模式匹配及模型训练技术。特征提取技术是将语音信号中有用的特征参数信息从所有信息中提取出来的技术。通过分析处理,删除冗余信息,留下关键信息。模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数。
语音识别技术发展至今,在识别精度上已经达到了相当高的水平。尤其是中小词汇量对非特定人语音识别系统识别精度已经大于98%,而对特定人语音识别精度更高。现如今的语音识别准确度已经能够满足人们日常应用的需求,很多手机、智能音箱、电脑都已经带有语音识别功能,十分便利。
按照目前语音识别技术的发展势头,未来是否可以实现人类和机器人之间无障碍交谈,就像在科技电影中看到的情景一样呢?尽管语音识别研究机构花了几十年的时间去研究如何实现语音识别准确率的“人类对等”,但目前在某些方面还无法达到高水平,比如在嘈杂环境下较远的麦克风的语音识别、方言识别或较少人使用的语言的语音识别等情况。
语音识别技术的发展为人们的工作和生活都提供了便利,很多繁琐步骤依靠一条语音指令即可完成。现如今智能家居处于发展初期,但依靠语音识别技术已经能够完整搭建一套智能家居系统。未来,语音识别技术会在各个方面展现出更多可能性。
本作品为“科普中国-科学原理一点通”原创,转载时务请注明出处。