演讲实录丨CAAI名誉副理事长刘庆峰：用系统性创新兑现人工智能红利-

2021年6月5日至6日，由中国科学技术协会、中国科学院、中国工程院、浙江省人民政府指导，中国人工智能学会、杭州市人民政府主办，杭州市余杭区人民政府筹备组承办，浙江杭州未来科技城管理委员会具体执行的2021全球人工智能技术大会在杭州成功举办。大会主论坛上，CAAI 名誉副理事长、科大讯飞创始人、董事长刘庆峰先生为我们带来了题为《用系统性创新兑现人工智能红利》的精彩演讲。

刘庆峰

CAAI 名誉副理事长

科大讯飞创始人、董事长

以下是刘庆峰先生的演讲实录：

今天我们讨论人工智能的话题，我想可以分为两个层次，一个是利用人工智能第三次浪潮，也就是以深度神经网络的算法为代表的这一次人工智能浪潮如何兑现红利，如何用人工智能来深刻改变现在的生产和生活方式的问题；另外还有一个方面，如何探讨人工智能未来，怎样进入到通用智能，怎样能够在脑科学的发展、脑机接口、人机协同等方面取得持续的源头技术创新和基础算法的突破问题。今天我特别想和大家分享的是，如何通过系统性的创新兑现我们本次人工智能产业的红利。

人工智能的重要性应该说得到了越来越多的关注，就在今年的5月28日习近平总书记在两院院士大会上又再次重点强调了人工智能，并且在全球发展格局和技术竞争格局的背景下，再次强调中国人工智能数字经济蓬勃发展，图像识别、语音识别是走在全球前列的。我想这都是广大人工智能科学家和相关产业界的共同贡献结果，因为人工智能需要数据的不断学习训练，需要场景的驱动。另外专门提到人工智能为代表的新兴科技的快速发展，大大拓展了时间空间和人们的认知范围，人类正进入一个人、机、物三元融合的万物智能互联时代。

我们一直说从移动互联网往万物互联时代发展是IT产业发展的第6次浪潮，而万物互联确实是以智能为代表的，这也另外使得人机交互将从原来以键盘触摸为主的方式日益走到以语音为主的更智能化的交互方式。因为很多设备没有屏幕，很多设备要离我们几米之外进行沟通交流，甚至家庭机器人普及之后，我们也不可能每次都去触摸，或者操作键盘后才能和它对话和交流。所以从这样一个万物智能互联时代也可以看出，语音交互、视觉识别在未来是具有越来越重要的人机交互的特点和大的趋势潮流。

人工智能正在更有温度地进入到我们的生活中。今年1月27日，科大讯飞专门在我们的输入法上上线了“长辈模式”，让我们的父母亲、爷爷奶奶们在手机上用更大的字体、更方便的形式去看，同时用语音把相关内容读出来。我发现，这成为今年很多年轻人春节回家送给长辈的第一个礼物（这都是免费下载的）。

另外，今年5月18日，我们专门发布了“银发”智能服务平台，在天津专门做了一场活动，叫做“奶奶们的客厅”。原来这是一个对独居老人进行家庭有温度关怀的系统，如果这些独居老人在家里24小时没用水电气，或者没有按照他的习惯方式在特定的时间用水，或者开灯等，系统就会按照预设的规则，在用户愿意接受问候的前提下，定期拨打电话，进行问候。一旦发现出现异常，这些独居老人没有接电话，系统就会主动联系他们的亲属，让他们上门去关心、去检查；如果给定时间没有到位就会自动通知社区人员和医护人员上门，这样使得在有限的社会服务资源投入下，对独居老人进行全量化的关怀。在此基础上，进一步增加了让不用APP或者不习惯用APP（享受不了移动互联网的红利），但会打电话的老人，只要拨打类似于城市服务热线的电话就可以点外卖、可以叫车、可以去医院挂号等这些功能。应该说，人工智能会使社会变得更加有温度，尤其在老年社会快速到来时，人工智能的温情落地生根、蔓延生长，对于社会的幸福是非常重要的。

随着现在人口出生率的不断下降，我们已经开始从人口红利一定要进入到工程师红利和人才红利的阶段，所以今年的政府工作报告，李克强总理专门提出，在“十四五”期间，要使全员劳动生产力的增长高于GDP的增长这样一个大趋势。但是再往后发展，我觉得还要从人才红利进一步进入到人工智能的应用红利阶段，通过人工智能大幅提高社会生产效率，降低管理成本，提升产品质量。因此可以说，人工智能即是决定未来幸福中国，在老年社会和人口数据不断降低的情况下，如何使得每个人的社会服务得到更充分满足的一个基本能力，也是工业强国的一个核心支撑，是未来全球价值链竞争的必然选择。当然我们希望这种价值链的竞争一定是阳光和健康的，尤其人工智能在构建幸福社会的同时，一定要与法律、伦理和人文结合起来，更需要全球的协同，使人工智能真的能够造福人类，能够创造一个美好的社会。

关键技术上，在过去两年中也是取得了持续的进步，比如语音识别。我们要面向万物互联时代的语音识别，它的核心就是各种噪音、各种口音、远距离说话要上下文语义相关。国际每两年一次的语音识别比赛，2018年科大讯飞是全球第一名，识别准确率只是接近60%；2020年我们又获得了全球第一，识别准确率已接近70%，这两个数据指标差距还是很大的。我们在讯飞输入法上的识别，准确率可以达到98%，但是在背景噪音非常强的情况下，我们只能做到70%左右，但我们有信心随着技术不断的进步可以把它从70%提到85%，甚至90%，达到真正可用。我们把语音识别和嘴型识别、面部表情和手势再结合出来形成多模态识别，就非常有可能在万物互联时代，早日达到规模化使用的阶段。

语音识别、人机交互确实可以构建万物互联时代的智慧家庭入口。从过去几年我们的数据增长也可以看到，2020年整个智慧家庭语音模组的出货量，仅科大讯飞一家已经达到了4750万台，在过去3年的年化增长达到了150%，可以说是一个真正的海量爆发状态。

语音合成除了合成自然流畅的语音，还有一个非常重要的就是如何提高语音的表现力。我们在央视首次做了虚拟主播，模仿已故配音大师李易老师的声音给六期《创新中国》的节目配音，惟妙惟肖。但怎样把它用在日常生活中，怎样在父母亲出差时，可以把他们的声音留下来给孩子们讲故事，老人独自在家可以听到孩子们给他读书读报，增加社会的温度，这就需要声纹识别、音色转换的相关技术。

2020年8月在国际比赛中，科大讯飞在自然度上已经达到了4.28分，接近了真实录音的4.59分；与发言人的相似度达到了95.75%，已经高于真实录音的95.5%，相似程度刷新历史新高，使社会变得更加有趣、更加有温暖。当然，所有这些工作必须在保护用户隐私，防止这些技术被滥用的基本前提下。

我们是第一大股东的淘云玩具，采用科大讯飞技术做的阿尔法蛋机器人，可以模拟爸爸妈妈讲故事，在网上一度热销，成为了业界排名第一的玩具机器人。我国9000多万党员都在用的“学习强国”也开始使用我们的多种音色来进行语音合成的播报，使大家在不方便用眼睛或者眼疲劳时，可以变看为听。实际上，我们的语音合成和识别已经在给大量的弱势群体和残障人士提供服务，比如让聋人听不见声音，但他可以看见声音，因为用语音识别把声音变成了文字；盲人看不见文字，但他可以听见文字，因为用语音合成把文字读出来了。现在每天已经有5000万人次的使用量是给聋人和盲人朋友的，占整个平台每天50亿人次的1%，很多聋人和盲人朋友通过平台成为了电商英雄，成为了著名的写手，不仅让他们融入了这个时代，还成就了自身的价值，成为了时代的英雄。

此外，自然语言理解也取得了很好的突破，2019年3月我们提出的全新算法，在斯坦福大学牵头的SQuAD 2.0比赛中，首次两项指标都超过了人类平均水平；2020年8月又在GLUE国际比赛中，我们以总平均90.7分的成绩，超过了人类的平均正确率87%，获得冠军。总之，机器阅读理解在很多任务上已经达到甚至超过了人类水平，使它可以在非常多的领域学习相关知识，从而达到我们的使用要求，解决社会所面临的具体问题。

人工智能一个非常重要的方向就是如何用更少的数据实现更好的效果，而不是都需要大量的标注语音，我们在语音合成和识别上都有了很好的突破，比如，在语音合成上用全新的方法，2小时就可以实现原来30小时的语音合成效果；在音色转换上，原来需要4~8小时的语音，现在半小时甚至几分钟就可以达到很好的音色转换的效果。

在语音识别上再给大家解释一下我们模型中的一些参数。我们基于语音合成和自训练的半监督语音识别框架，就是通过基于Flow的语音合成方案可以把各种文本先合成语音，然后用语音识别模型的训练来校验它。相当于我们的语音数据很少，但是可以用文本直接语音合成出语音数据，与文本对应。而用我们现在基于Flow的语音合成方案，一方面合成的错误率更小，使它数据更准；另外音质更接近原始发音，所以使语音识别的训练效果更有保障。此外，我们也可以通过无标签的语音，也就是语音数据直接用语音识别模型识别出相应文本，把文本与语音对应，它没有人工做标记是一个自动标签的数据。也就是，我们把有监督的数据——人工标记完的数据与语音合成的数据，以及语音识别自动标签的数据融合在一起，送到语音识别模型中不断迭代优化，则100小时的有监督数据加上1 万小时的无标签语音，再加上等量1万小时的文本数据合成的语音进行整个训练，就可以达到原来1万小时有监督训练的效果；也就是提高了100倍的自动化的效果，就是100小时有监督数据加上全自动化人工智能手段可以达到1万小时有监督训练的效果，从而使人工智能用更少的数据实现向更好的效果迈出非常大的一步。

另外，人工智能技术也在不断地针对结构化数据的树状建模，使我们在很多领域取得进步。比如用在教育领域非常重要的是公式的识别，而复杂公式的数据量非常少，通过引入树状解码器到编码解码框架中，就可以有效减少识别模型对数据的依赖性，大幅度提升复杂结构数据公式的数据效果。这些都是单点技术的进步。

今天，人工智能已经可以解决重大社会命题。比如因材施教。要做到针对每个孩子的因材施教，使他在学业过程中，减少无效和低效的重复训练，省出时间来做五育并举，做创作力的提升，提高孩子的幸福感。

要做因材施教，必须有OCR技术，对学生手写的作业、课堂表现以及考试数据进行分析；还要有自动评分技术，不仅是数理化的理科题目，还包括语文、英语和作文的主观评分。评完分后对学生的知识学习图谱进行分析，给出学习路径规划，最好能够给出最近发展区，通过历史的海量学生数据告诉他应该参照哪一个学习叫做以人推题，以人进行知识图谱的训练。整个逻辑要实现，涉及到非常多关键技术的结合，包括如果让孩子学习相关知识点，如何用更少的时间，一堂课45分钟，他需要再次学习可能就是三五分钟，这时需要语音识别、语音理解和我知识点的相对应。但是这些都是底层技术，再往上基于解决综合复杂问题的思维训练是一个全新的数学建模逻辑。在这些相关的总体的系统性创新基础上，我们可以大幅地减少孩子在家庭学习的无效训练时间，也可以使老师的备课和批改作业时间大幅减少，腾出时间来进行孩子们心理成长的关心、进行教学研究等工作。

人工智能在医疗应用中也是如此。当我们让人工智能技术学习53本医学教科书、200多万医学论文，学习大量医学案例后，让机器通过国家职业医生资格考试，在一线当全科医生，目前累计了2 亿多次的辅助诊疗，将基层医生的合理诊断度从70分提到90多分，使越来越多的乡镇卫生院、村医工作室、社区医院的医生具备了三甲医院的能力水平，已经在安徽的所有基层医院全方位使用，而且还可以针对重大传染病和危险疾病形成自动预警。这样的系统不仅是一个简单的机器在后台对相对病症的推理，而且还要在实践过程中通过人机协作的方式进行不断优化。同样的药品，针对孕妇、老人、孩子使用方式完全不同；同样的症状，有没有基础疾病用药也是完全不同；另外在不同区域的生活饮食习惯和健康锻炼习惯不同，很多的建议方式也不同。我们要让医学更有温度地服务每个老百姓，就需要从单点技术突破到辅助诊疗包括未来养老系统性创新的应用满足将来的需求。

人工智能在工业领域中也有很大突破。2020年在工业声纹识别中取得了全新进展，现在已经可以让机器自动地听生产线有没有故障，以前靠有经验的工人去听；洗衣机、电冰箱、空调等越来越多的设备是不是满足超静音的要求，以前靠人抽检，现在可以用机器自动质检，而且用机器的语音加上视频和图像进行综合质检。最近国家质检总局专门设了语音的标准技术创新中心，其中一个任务就是针对工业应用领域设定相关的标准和检测方法。人工智能在企业数字化转型中，除了质检、生产线过程中的很多应用，在多个领域都可以赋能，例如客服、营销、办公，甚至可以当面试官。在财务领域中，比如科大讯飞的财务系统员工的各种报销单据原来手动填，现在拍一张照片，自动OCR识别，自动语义理解填充，自动判断后台是不是虚假发票，使员工原来10~15分钟填写的一张报销单，现在2~3分钟就可以完成，后方共享中心的财务人员节约了30%以上，使他们可以做更有意义的事情。

未来人工智能的应用已经开始从数据驱动走到以场景驱动为主，同时在特定场景下数据不断迭代优化，由单点技术开始走到系统性创新的关键阶段。系统性创新未来最重要三个关键要素，一个是关键核心技术效果还是要跨越技术鸿沟，达到应用门槛。比如口语评测能不能超过老师的水平、医疗能不能通过国家执业医师资格考试，这都是基本的技术门槛。二是要能够做系统性创新必须能够对创新链条上各个关键技术有深度融合的能力，要把语音识别和嘴型识别、手势、面部表情整合起来做虚拟主播，以及做多模态识别等这些关键技术的相互融合；在教育领域也要从OCR识别到自动阅卷到知识推理到学习路径等完整的规划，形成创新的能力，不是简单技术的组合，而是需要在深度层面进行融合应用。三是针对重大的历史命题、社会命题进行系统性的解析，转化为科学问题的能力。我们希望在未来人工智能发展中有越来越多的有科学家精神的企业家和有企业家精神的科学家能够结合在一起，从而使系统性创新能够推动人工智能第三次浪潮的红利，真正更早的造福普通百姓，造福工业各领域。

未来十年，人工智能技术发展趋势从科大讯飞产业分析的角度，大概可以看到以下几种趋势。

1. 深度学习的黑盒将变成白盒，可解释性的人工智能需求非常迫切。所以从数据结构化、网络可视化到推理过程化是非常重要的发展过程，现在有很多人工智能领域数学研究的专家们开始讨论人工智能的数学原理。

2. 人机共存时代，人机交互将更加“以人为本”，成为懂你的AI。让人工智能真正适应每个人的发展，而不是每个人来适应人工智能的需要，包括多模态感知和呈现、可编辑人工智能的人设、场景自适应的交互等相关方面，使人机共存变得更加自然，让人类更加顺畅地接受人工智能帮助，把人工智能做成我们乖巧的助手和小秘书。

3. 人工智能和多学科交叉的研究将会加速，使得人工智能在更多行业中引发颠覆式革新。包括人工智能和脑科学的结合；人工智能基本算法在材料科学和生物制药领域可以起到很大作用，甚至由原来很多材料科学的猜想和组合实验变成人工智能做非常精准的预测，使得实验的范围大幅缩小，科研效率大幅提高；包括人工智能和深海深空很多应用研究都可以带来颠覆式创新的机会。

人工智能红利的兑现绝不代表人工智能要替代人类，人工智能发展始终要强调以基本价值观为导向。我们在创业20 年时专门发布首个宣传片，名字就是《人工智能向人类的表白》，设定场景2045 年，传说中的奇点已经到来。事实上，人工智能根本没有替代人类，即便人工智能说我已经拥有全世界的知识，但是却没有替代老师，因为老师是人类的灵魂工程师；我能轻易诊断任何疾病却没有替代医生，因为医生是要有温度的，不仅有医学知识还要有情感甚至人文艺术；我了解所有成长秘密却不能替代母亲，因为母亲有爱。这部宣传片专门提到，人类有我所没有的东西——同理心、想象、感动、热爱，人类知道美是什么，会提出为什么。我相信未来一定不是属于人工智能的，而是属于掌握人工智能的新人类。人工智能建设美好世界，需要科学界、产业界、法律界，以及社会管理界全方位的协同，是一个伟大的历史进程，需要我们共同携手，用人工智能建设美好世界。

（本报告根据速记整理）