不开心时安慰你,开心时陪你开心……我们离这样的机器人还有多远？-

作者：科普中国新媒体

引文：

提到有情感的机器人，科幻作家们已经创作过很多打动人心的形象。

离我们最近的一个，是《流浪地球》电影中的MOSS，嘴上说着“让人类永远保持理智，确实是一种奢求”，却一直忠实地陪伴在刘培强身边，直到最后。

不过，回到现实，要提高机器人的情商，现在还是科学家要解决的问题和难题。

在中国科协发布的 2024 重大科学问题、工程技术难题和产业技术问题中，十大前沿科学问题便包括中国图象图形学学会提出的“情智兼备数字人与机器人的研究”。

那么，现在数字人和机器人的“情商”已经发展到了什么水平？在科学家眼里，理想中的数字人和机器人是什么样子？

我们邀请这一问题的提出者之一、中国图象图形学学会情感计算与理解专业委员会常委、清华大学副教授高跃聊了聊。

以下内容根据高跃的讲述整理——

正文：

“情智兼备数字人与机器人的研究”这个问题是我们图象图形学学会情感计算专委会共同的思想结晶，也是这些年来我们很多同事探索的一个关键科学问题。

现在，人工智能发展非常快速，随着像AlphaGo这些技术的涌现，在很多场景下都取得了非常重要的突破，近两年，具身智能等技术也在迅猛发展，对决策和智能化分析处理等方面都有很大推动。

需要指出的是，在生活环境中，我们和外界的人、物、事都有很多情感上的沟通。如何让这些技术、装置在具备智能化的同时还能兼顾情绪化的沟通，其实是非常重要的，也是我们一直在思考的问题。

电影《霹雳五号》中的机器人“No.5” 图片来源：《霹雳五号》电影截图

理想状态下，情智兼备的数字人和机器人是什么样子？

数字人主要在虚拟空间里进行仿真模拟，有更多可供设计的空间，给出一些我们在日常生活里很难见到或更丰富的场景；而机器人更多是在现实空间里，看得见、摸得着，可以和我们有行为上的交互甚至肢体上的交互，这里会存在更多挑战。

从应用角度看，数字人和机器人，都在向我们期望的场景不断拓展。

比如我们现在会在互联网平台上看到很多数字人，做新闻播报或讲一些有趣事情。前两年，这些数字人可能也会张嘴说话或做其他动作，但很机械化，你可能一眼就能识别出它是假的。现在，很多数字人仿真程度已经非常好了，会伴随很多情绪化的表情或动作。

新华社此前推出的3D版AI合成主播图片来源：新华社

同时，周围生活里也已经有很多自动化的机器人，比如工厂里的机器人，还有做咖啡的机器人，但它们和我们之间的交互，现在可能只是比较机械化的交互，你发个指令过去，它给你一个反馈，给你执行，比如给你做了一杯咖啡，或造了一个汽车零部件。

但是，我们人类和外界还需要很多情感交互，希望和周围环境交融在一起。比如，家里的小猫小狗，你可以跟它一起玩耍，它可以陪伴你。可能很多看过动画片《机器猫》的朋友都会希望家里有只机器猫，不仅仅因为它能从兜里给你变个你想要的东西出来，而是像个朋友，在你不开心的时候安慰你，开心的时候陪你开心——这就是一个非常典型“机器人融入生活”的例子，而且融入得很自然。

图片来源：《哆啦A梦》动漫截图

情感交互对我们人类非常重要。日常生活中，我们都希望有一个能在情感上沟通的对象。机器人也好，数字人也好，我们都希望它不仅仅是一个完成任务的工具，而是更好地融入我们的生活。

比方说，这两年大家很关注的智能陪护机器人，它肯定不能只是一个冷冰冰的机器。如果你家的咖啡机突然走过来问你要不要咖啡，这可能会是一个怪异的场景；但如果它可以征求你的意见，了解你的想法，甚至从你的动作和生活习惯去理解你当前的状态——这是一个未来可以努力的方向。

图库版权图片，转载使用可能引发版权纠纷

数字人或机器人的情商，怎么打分？

怎么给机器人或数字人的“情商”打分，这也是当前学术界非常关心的一个问题，因为这比评价智能化更难。

要量化评价智能化水平的话，现在已经可以在不同任务下设计不同的评测指标，像无人驾驶现在已经有了L0到L5的不同分级。但**要从情感或情绪角度去量化，现在还很难。**比如针对一个事情的反应，开心或不开心，我们当然也可以弄一个量表，开心程度从1到10，但这其实很难界定。

我们肯定都希望数字人和机器人可以和人类无缝沟通。之前非常典型的是“图灵测试”，去评价机器是不是可以让人区分出它是人还是机器。从情感维度去评价也是类似的。如何评价情感沟通能力的强弱，情感激励效果的好坏，我们现在可以在很多特定任务里进行评估，比如通过面部表情来判断情绪，但更加通用的、完整化的分析模型，现在还需要进一步探索，进行一些规范化的评测，形成一个标准去评价“它们到底在情感里达到了什么样的状态”，在未来肯定是有必要的。

“情智兼备”难在哪里？

前面提到，现在数字人看起来很真实了，它其实是从计算机图形学和虚拟现实维度考虑如何让它的动作更连续、让仿真场景更真实，这是从外观等角度看待这个问题。

但当我们要关心“情智兼备”时，除了它外观的真实感，更多是要关心它在情绪上的表达以及应对外界反馈时对情绪的准确判断。

图库版权图片，转载使用可能引发版权纠纷

要让数字人和机器人更好地做到这些，我们需要从更底层的角度理解人的情绪和一些表征的产生机理。换句话说，除了让数字人和机器人学会根据外界信号，分析人的情感并判断，我们也需要从人的大脑本身来理解人的情绪状态，比如在不同场景下会有什么样的变化和影响，再比如一些特定疾病患者人群，像抑郁症或孤独症的儿童，他们的情绪状态也会和常人有一些差别——然后，更好地认知这些差别就非常重要了。比如我们可以构建一个机器人帮我们造车或倒咖啡，但它或许还可以同时帮助我们识别一些疾病前兆，或者在服务孤独症或认知障碍人群的时候，可以提供一些诊疗服务或感情上的关怀。

我们希望机器人和数字人从情和智两个角度都能不断接近人类。当然，对我们自己本身情感认知能力的探索也还有很长的路要走。

我想，一方面需要脑认知研究水平的提升，大脑如此复杂，对它的运行机理，乃至对我们自己的认知、情绪的起因和情感的分析，我们远远没有理解透彻，还有很长的路要走；另一方面，也需要新技术使这些数字人和机器人的能力进一步增强。这两条线可能都在向前走，如何让它们走到一起以及最终路到底通往哪里，也需要长时间的探索。

如果我们有很多数据去做情感计算和情绪判断，用这些数据训练一些模型，然后用它来判断这种情况下人的正常情绪是什么样子，我觉得这属于初级阶段。

但在未来更加通用的阶段里，还需要考虑不同人群的特定情绪差异，甚至在不同区域或特定的环境下的差异。这些个性化、多样化的特点使得情感计算和情绪判断变得非常困难。

图库版权图片，转载使用可能引发版权纠纷

从这个角度看，要让数字人和机器人实现和人的情感交互，确实很难。因为每个人都是独立的个体，而个性化本身很难。比方说，你听一个脱口秀的笑话，现场每个观众给出的反馈肯定都有差异，但你很难把一个笑话对每个人机械性复述100遍去收集反馈并开展研究。

这种情况下，如何针对外界反应给一个实时反馈并且调整做这件事的节奏，就很重要——我们人类可能比较擅长这件事，但要让机器人去做到给出更合适的个性化反馈，还有很多技术性难题要突破。

比如我们去看待外界的事物，会收到很多视觉数据、听觉数据以及其他不同的感官数据。这些对外界的反应，往往并不能简单地按照一二三四分出几种具体情况来，其内在联系是更加复杂的。好比抛硬币，要么正面要么反面，但现在会发现，它还可以存在中间摇摆状态，更加难以判断。

由于很多感官信息数据不见得完备，我们也很难把一个人放到充满摄像头和各种传感器的设备里去观察，这会给被试人员带来极大的不适，难以实现。仅基于有限的局部信息进行智能模型训练，要去更好地理解一个人的当前状态并给出反馈，就更困难了。

另外，当你把这些模型或方法嵌入到数字人或机器人，要实现和你的交互，还有很多问题要解决。比如计算效率，如果我们跟它说句话，它过10秒钟才给一个反馈，感觉就像卡顿掉了，体验会非常不好。如何让它实时地给出反馈，既要解决计算效率，也要解决硬件问题，包括芯片，这些都需要提升。

怎么解决？

“情智兼备的数字人和机器人”背后，其实是很综合的问题，有很多技术难题需要逐步解决。

这涉及几个方面的问题。

一方面是需要更丰富的数据。

很多人工智能方法都需要数据支撑。这几年，关注情感计算的研究者越来越多，能够获得更多数据来支撑模型的训练，另外，随着硬件技术进步，算力和传感器技术也快速提升，采集数据也更容易了。比如以前要采集脑电数据就非常困难，现在的脑电采集设备就相对更加易于使用了。

和情感相关的医学、心理学及脑科学的研究这几年也发展得非常迅速。许多研究工作都会和相关领域医生共同讨论和探索，很多随访数据可以帮助我们更好地建模及理解人的情绪状态，包括内在和外在的表征有哪些区别，这些也可以帮助我们理解人的情绪到底和哪些因素相关，人的言语和行为这些外部表征和他本身大脑的变化的关联，反过来还可以帮助我们去判断人的情绪。这些交叉学科的交融也为情感认知与理解提供了重要的突破路径。

图库版权图片，转载使用可能引发版权纠纷

另外，硬件技术的进步也是非常重要的。

数字人可能不需要一个硬件形态，在耳机、屏幕等设备里就可以和你进行交互。但机器人就需要解决载体的问题。一些场景中，机器人可以把车给举起来，但另外一些场景中，你还希望它能够跟你柔和的握手。在很多实际活动中，要让它们把我们希望它们做的事情准确、实时地操作出来，这肯定需要机械、材料、传感器等其他领域都介入进来。

策划制作

受访专家丨高跃清华大学副教授、中国图象图形学学会情感计算与理解专业委员会常委

整理丨杨杨

策划丨孙婧雅中国图象图形学学会学会

丁崝

责编丨杨杨

审校丨徐来林林