秒懂“弦外之音”中国智能语音技术取得新突破

新华社 2016-11-25 作者：白国龙

　　人工智能日益“火热”，可目前的智能语音技术，机器还不能充分理解自然语言，听懂“弦外之音”的情景仅存在于科幻作品中。但这正在起变化！

　　国内最新的智能语音技术成果表明：机器已能以较高的准确率实现语音转化文字、多语种同步翻译、甚至模仿某个人的声线讲话，以假乱真。

　　秒懂“弦外之音”　精准识别同步翻译

　　在上千人的会场，多位嘉宾近３小时的演讲交流，全程无速记员，演讲内容却能实时转成文字显示在大屏幕上。

　　新华社记者２３日在科大讯飞年度发布会上看到，除了演讲中个别人名地名的差错，以及说话者口语表达中冗余的词汇外，绝大部分演讲内容都被整理得非常准确，并能同步翻译成英、日、韩等多种语言。

　　在智能车载系统的展示中，面对驾驶员任性地打断、随意地插话，车载系统竟通过上下文语境“秒懂”驾驶员意图，甚至对故意“刁难”的极简指令，也能迅速听懂“弦外之音”，导航、听歌、团票都不在话下。

　　据介绍，这些都是基于深度神经网络的语音识别技术来实现的。语音识别技术，简单说就是让计算机“听懂”人类的语音，将语音中包含的文字信息提取出来。该项技术在智能计算机系统中扮演着重要角色，相当于给计算机装上了“耳朵”，使其实现人机通信和交互。目前语音识别准确率可达到９７％。

　　“随着万物互联时代到来，以语音为主、键盘触摸为辅的人机交互正逐渐成为刚需。未来５到１０年，人工智能会像水和电一样成为我们生活的必需品，深刻改变我们的世界。”科大讯飞董事长刘庆峰说。

　　语音合成“以假乱真”声音也可被“盗”

　　聪明的机器人要能听会说，语音合成技术就是“让机器像人一样开口说话”，它是涉及声学、语言学、数字信号处理、计算机科学等多个学科的一项信息处理的前沿技术。

　　中国工程院院士、中国人工智能学会理事长李德毅表示，在人工智能领域，对话是目前最直接、最便捷的交互方式，对话智能是几乎所有服务机器人的必备技能。

　　让机器人“开口”说话的技术并不新鲜，电子万年历、计算器上都能用得到，但要像人一样说得自然流利、有声调起伏，并非易事。

　　记者在现场用手机试用科大讯飞开发的语音合成软件，发现语音合成功能不仅能将文字信息转化为可听的声音信息，还能将某个人的声线特征收入语音库中，然后用很短的时间将文本用被模仿者的声线特点读出来，确有以假乱真之效。未来，人们的声音也可能存在被“盗”用。

　　目前，中国在智能语音技术上已经实现了５到８米的远场识别、多轮交互对话、免唤醒词交流、交流随时打断等多项突破，人机交互越来越流畅自然。

　　“不仅中文语音合成技术取得突破，在今年的全球语音合成大赛中，科大讯飞的语音合成技术能够声情并茂讲英文故事，在多种语言的测试中表现不俗。”刘庆峰说。

　　人工智能如何改变世界？

　　如今，以智能语音技术为主的人工智能已在手机、教育、家具、汽车、医疗、服务机器人等多个领域显示出巨大的应用潜力。

　　今年１月，日本提出超智能社会的发展规划；１０月，美国出台人工智能产业规划。发达国家已经在思考人工智能可能带来的风险、人工智能如何实现人和机器相互融合、人工智能相关法律等问题。

　　今年４月，我国由工信部倡导、国内多家企业联合发布了《人工智能深圳宣言》，宣言除了强调人工智能必须要做源头技术创新、人工智能要有标准外，同时也强调积极探讨人工智能技术发展与伦理道德的平衡点，让人工智能更好地服务人类。

　　中国移动通信集团公司副总裁李正茂表示，基于人工智能技术的机器人很可能成为继手机之后下一个超过全球人口总数的电器产品，未来机器人市场规模可能突破百亿。

　　对人工智能技术，一边是美好的畅想，一边是谨慎的担忧。著名科学家霍金认为未来人工智能会替代甚至奴役人类，近来备受热捧的《西部世界》《黑镜子》等影视作品也都表达出对人工智能和未来科技的担忧。机器人威胁人类是杞人忧天吗？

　　未来正在改变，没人能预测未来，可人工智能技术前进的脚步不会放缓。

责任编辑：王超

科普中国APP 科普中国微信 科普中国微博

新华社

是中国科协为深入推进科普信息化建设而塑造的全新品牌，旨在以科普内容建设为重点，充分依托现有的传播渠道和平台，使科普信息化建设与传统科普深度融合，以公众关注度作为项目精准评估的标准，提升国家科普公共服务水平。

最新文章