语音智能何时听懂人心 交互认知尚未实现

中国青年报 2016-12-06

  吴桂林总是很乐于向人展示自己公司现在使用的语音智能技术。

  11月底,在百度语音平台三周年发布会上,这位爱奇艺技术总监拿出手机打开了自家的手机客户端,对它发出语音指令:“我的会员没钱了,给我打开VIP充值。”随后App就跳转到了会员充值以及支付页面。

  动动嘴就能给身边的设备下达指令,实现自己的需求,眼下能享受这样智能化服务的人越来越多。据吴桂林介绍,每天有上百万爱奇艺App的用户会使用语音搜索,其中80%以上可以转化为有效点击。

  作为移动互联网时代比较典型的应用之一,视频App的这一变化反映了许多用户和开发者的共同感受:不知不觉间,我们使用的互联网产品已经变得更加智能化,人工智能、机器学习、深度神经网络等原本有些冷门的词汇,也慢慢被社会广泛讨论起来。

  随着人脸识别、语音合成等技术日趋成熟,走过PC、移动两大阶段的互联网,下一个阶段会不会是更加聪明、智能的智能互联网?

  分歧

  今年11月中旬的第三届世界互联网大会上,两位互联网大佬关于人工智能的分歧成了最引人关注的焦点之一。

  百度公司创始人、CEO李彦宏声称,移动互联网时代已经结束,这个风口已经没有可能出现“独角兽”企业,未来的机会在人工智能。而腾讯公司控股董事局主席、CEO马化腾则认为,人工智能只是新技术和新工具,绝对不会因为人工智能来了,移动互联网就毁掉了。

  李彦宏支撑自己观点的一个理由是,起步于2012年左右的移动互联网时代,主要得益于移动端用户的快速增长,但目前国内互联网渗透率已经超过50%,如果把老人小孩都去掉,真正能成为移动互联网用户的人群已经不多了。

  一些数据和现象似乎也在说明移动互联网进一步增长的机会减少了。根据美国市场研究公司IDC的预计,今年全球智能手机出货量将达到14.5亿部,同比增长0.6%,远低于2015年的10.4%。

  在智能手机销量只能勉强实现微幅增长的同时,移动互联网的另一重要载体App的情况也不容乐观。唱吧、魔漫相机、疯狂猜图、脸萌、围住神经猫、无秘、足记……爆款App越来越多,流行的时间却似乎越来越短,甚至有行业分析师表示,App的生命周期平均只有10个月。

  在接受中国青年报·中青在线记者采访时,科大讯飞轮值总裁胡郁也表达了与李彦宏类似的观点。在他看来,随着人口红利的逐渐消退,智能互联网逐渐代替移动互联网的趋势已经逐渐清楚了。“尽管新的手机在不断地卖出去,但总的用户数相对稳定,已经基本进入了饱和阶段。”

  那么,下一轮机会在哪里?胡郁注意到,今年以来很多大企业和小型创业团队开展了不同的尝试,有的在智能穿戴设备上发力,有的钻研无人车,“这种状态有点像前几年智能机刚出现的时候”。但总结各种尝试的方向后,胡郁发现它们有一个共同的趋势:大多数设备都在智能化、开放化。

  在DCCI互联网研究院院长刘兴亮看来,移动互联网之后,互联网的发展将会进入一个“智能时代”。不同于PC和移动互联网时代以个人电脑、手机为终端接入互联网,那时候任何设备都可能成为互联网的接入终端,而手机这样的设备也可能会被淘汰。

  “智能互联网更多强调的是每个设备能够独立地、有智慧、有感情地工作,可以理解为,以后每个物品都有可能成为一个机器人,一个电脑。”刘兴亮说。

  押宝

  因为看好智能互联网的发展前景,百度已经在这上面投入许多资源和精力,尤其是在语音智能方面。

  “语音识别是非常重要的交互办法,有很大的潜力去彻底改变人机交互的效率和办法。”11月22日下午,百度首席科学家吴恩达在接受中国青年报·中青在线记者采访时提到,语音是最自然而方便的交互方式,语音智能也是目前技术比较成熟、用户感受比较直观的智能交互方式。

  他举例说:“比如未来你在家里想开电灯,想把空调调到24℃,如果可以不再需要拿出手机,就可以使用准确率很高的语音技术的话,我觉得很多用户都会觉得有非常大的价值。”

  为此,当天百度宣布向公众开放4项全新的语音技术的接口:情感合成、远场方案、唤醒二期技术和长语音方案。从效果和作用来看,这4项新开放的技术能解决用户在使用语音交互场合时,经常会面临的一些普遍而关键的问题。例如,百度情感合成技术主要聚焦在为合成语音“加入情感”,目前可达到接近真人发声的效果。

  选择语音作为智能互联网切入口的不止百度。11月21日~23日,搜狗、百度和科大讯飞3家公司先后召开了发布会,向外界展示了自己的语音智能产品和实力,并且都宣布其中文语音识别准确率达到了97%。

  科大讯飞更是将野心延展到了物联网上,推出了一款“万物联网输入法”,想通过语音操作的方式解决物联网设备的人机交互问题。在其最新推出的多款新产品中,既有可实现中、英等语言即时互译的便携式翻译机,也有汽车人机交互系统飞鱼助理,还有通过AIUI技术识别身份、分析数据、办理业务的晓曼机器人。

  科大讯飞董事长刘庆峰在演讲中表示,以语音为主、键盘为辅的人机交互正逐渐成为刚需,语音智能技术的推出和开放也有利于全社会的创新。据他介绍,科大讯飞把智能云平台开放给开发者之后,平台上总用户达到8.9亿,每天30亿人次访问量,创业团队从去年的7万增加到21万个。

  对于一些企业在语音智能方面的布局,洪泰创新空间创始人、CEO王胜江认为,从语音来切入智能互联网领域是一个很好的入口,因为智能互联网最终要解决的还是人与机器的连接问题。但在此过程中也会遇到一些难题,例如语音难以完全标准化、人工智能的交互仍存在许多不足。

  预言

  对语音智能是否足够智能的担心不只出现在创投圈里,钻研人工智能多年的专家也颇有担心。

  “我们假设这样一个场景。一个男人的声音说:‘打啊,打啊,你打啊。’另一个女人的声音说:‘反了,反了,反了你。’语音智能的机器人会怎么判断?它可能就会觉得这是两夫妻在打架了。但如果我们走到窗户前一看就会知道,场景其实是一男一女正在练习倒车。”

  11月23日,这个生动的场景模拟引起了台下观众的哈哈大笑。做出这个假设场景的是已经关注语音智能领域十余年的中国人工智能学会理事长、中国工程院院士李德毅。

  李德毅认为,对于语音智能的研究要尽量接近现实使用的场景,尤其是要让语音智能置于语义和语境中去学习和理解,甚至实现交互认知。目前的语音智能还不能达到这个水平。

  “现在我们到一些机器人展厅去看,不到3分钟就觉得意思不大,如果你买了个(机器人)回家,不到两个月你就把它处理掉了,原因是它太死板。”李德毅注意到,目前很多语音智能技术还停留在简单的语音对话阶段,离交互认知还远远不够。

  根据新智元发布的《中国人工智能产业发展报告》的描述,在人工智能60年的发展历程中,经历了两次退潮:20世纪七八十年代,由于计算能力不足、难以应对不确定环境等原因,人工智能的讨论热度逐渐冷却;21世纪初,一些人工智能技术成功商用但跨越式发展失败。

  根据上述《报告》的统计,目前全国在人工智能领域创业的公司约有200多家,大部分创建于2010年以后,绝大多数融资仍处于天使轮或者A轮阶段。但胡郁认为,目前的人工智能技术还处于“弱人工智能”阶段,大多还只能达到语音助手的水平。

  语音智能还未实现交互认知,技术只达到语音助手的水平。智能互联网的基础人工智能技术会不会迎来第三次退潮?

  记者把这个问题抛给胡郁,他托着腮思考了好一会儿,然后说:“以前的人工智能退潮都有一个现实的问题,没有从研究阶段转到使用阶段,但现在这次浪潮中我们可以看到,已经在很多方面真实应用了。”

  作为技术研究出身的高管,胡郁认为,人工智能的这一波浪潮能达到怎样的高度目前还不知道,但他认为,与其在浪潮中去预测,倒不如加速手头正在进行的研究。

责任编辑:王超

科普中国APP 科普中国微信 科普中国微博
中国青年报
是中国科协为深入推进科普信息化建设而塑造的全新品牌,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平。

猜你喜欢