版权归原作者所有,如有侵权,请联系我们

AI 3.0时代,情感计算的颠覆性力量

北京智谱人工智能科普基地
发扬科学思辨精神,打造全国人工智能科普基地。
收藏

历史的车轮滚滚向前,不知不觉中我们已经站在AI 3.0时代的拐点。随着“感知智能”逐渐向具有理解和表达能力的“认知智能”转变,情感计算必将是这场时代跃迁中关键的一环。在百家争鸣的情感计算研究界,有哪些技术难点?目前产品应用现状如何?未来赋能产业界的道路和机遇又在何方?

带着这些疑问,AI Time第18期邀请了中科院自动化所研究员陶建华、清华计算机系长聘副教授贾珈、中国人民大学信息学院副教授金琴、以及微软(亚洲)互联网工程院微软小冰团队首席科学家宋睿华,一起谈谈情感计算的过去、现在以及爆发式的未来。

认识情感及情感计算

无“情感”不智能?

首先,情感是什么?很多年前达尔文在《进化论》中就提出,情感是人类生存和进化过程中重要的组成部分,其表达和识别模式也不断朝高层次、多样化的方向发展。情感大体由三种成分构成:主观体验,外部表现/表情,以及生理唤醒。

情感能力是人类智能的重要标志,甚至在理性行为和决策中起到至关重要的作用。情感体验所构成的恒常心理背景或一时的心理状态,都能组织与协调当前的信息加工。情感状态的任何细微改变,都可能对主观创造性、问题解决产生重要影响。

情感计算发展历史

早在上世纪80年代,情感在机器智能中已经得到关注。“人工智能之父”Minsky在1986年所作的The Society of Mind一书中表示,情感是机器智能的重要组成部分。1995年MIT多媒体实验室学者Rosalind Picard首次提出“情感计算”这一概念,并于1997 年出版《情感计算》(Affective Computing)一书。

从此,情感计算这一新兴科学领域,进入众多信息科学和心理学研究者的视野。如今,随着大量统计技术模型的涌现和数据资源的累积,相关国际会议、期刊和比赛也不断引人注目,在应用领域的落地也日臻成熟。


技术思辨

交锋:范畴观 VS 维度观

有关情感体验的理论观点有两大“派系”:范畴观(离散情绪)和维度观 (连续情绪)。范畴观将情绪或情感分成相互独立的范畴,例如Paul Ekman提出的六大类情感分类体系。维度观则认为情感具有基本维度和两极性,主张将其投射到x, y, z轴构成的物理空间,例如PAD或VAD三维情感模型。

google图片,仅供学习参考使用

那么针对这两大“流派”,嘉宾们各自持怎样的立场?

贾珈认为,范畴观的好处是与人类词汇概念进行语言、语义上的接轨。维度观的优点是能够更动态、细致地描述人类情感,有效地表达愉悦度、激活度等情绪体验指标。另外,从情感计算任务上讲,范畴观是一个分类正误的问题,而维度观则是个连续空间的回归问题。尤其是在当今AI 3.0大数据时代,这种回归问题可以做到非常精准。

金琴表示,用情绪范畴来描述情感,更符合人们的直觉和常识。但是,维度观能够更精细、复杂地表示交互场景下情绪瞬时的演化、消融等状态变化。同时,维度观也涵盖了范畴观,两者其实联系紧密。陶建华补充,两者没有本质上的孰优孰劣,维度观可以产生精确到毫秒的瞬时情感输出,而范畴观则适合在一个时段里输出情感类别。

宋睿华则用令人耳目一新的比喻勾勒了两者的区别。维度观如同星空中动态的坐标,而范畴观则是给闪闪发光的星星命名为“伤心”或是“开心”。尽管坐标能够准确地刻画情绪的游走,但范畴更易于直观上的分辨,有利于现实生活中的推广和应用。

由此看来,范畴观和维度观实则是定性与定量之争。两者看似对立,其实可以相互转化。当然,具体方法和模型的选择,取决于实际任务和场景需求。

图:离散/范畴和连续/维度的多模态情感识别演示,左边是六大基础情感类别,右边是连续的情感状态变化(金琴)

矛盾?外显 VS 内隐数据

尽管情绪通常通过外显表情来传达和塑造,却往往不能真实地反应内在心理环境,这时需要内隐的生理数据来测试和识别。有趣的是,很多时候人类自身都无法察觉对方隐秘的情感波动。那么外显和内隐之前的冲突如何处理?人尚难判断,机器能够辅助吗?

其实,这两种数据未必冲突,而是具有统一的特性。相比之下,外显数据更易获取和收集,内隐数据却更为精准,代表着难以伪装的“ground truth”。事实上,人类本身的情感识别行为也是矛盾冲突的: 人们更倾向于听觉还是视觉通道获取的信息?面对喜怒不形于色的人,也就是扑克脸(Poker Face),我们又能解读出多少真实情感?这意味着情感调研中,人为标注的表情数据并不可靠。宋睿华在研究中也会模拟这种心口不一的情况,例如即使在负面情绪下,小冰也会受算法约束而礼貌地掩盖其情绪。

因此,把心理范式和识别技术整合在一起,才能更为全面地揭示情感的因素和特征。

应用思辨

毋庸置疑,情感计算的研究成果蕴藏着丰富的市场价值。那么它在产业界的应用现状如何呢?

贾珈展示了计算机画作生成、以及音乐驱动的avatar舞蹈生成这两大应用拓展。从哲学意义上讲,情感是美学更外延的范畴,利用计算机进行美学认知建模是个有意思的方向。

宋睿华的微软小冰,也具体阐释了范畴观和维度观的产业融合。小冰的内在情感指数根据上下文情境不断发生多维空间的位移,但外观上只通过几种具体的灯光颜色、或是2D动画中有限等级的神情状态来表达。

注:一个有趣的实验发现是,动画中小冰的声音始终保持中性,但仅仅通过面部和肢体表情仍然可以清晰地向人类传达情感信号(宋睿华)

情感的群体性和个体性

由于对情感的感知和理解存在具体的个体差异,在应用过程中情感个性化是非常重要的考量。然而个性化和泛化能力是相互矛盾的,这是一个技术难点。陶建华表示,目前已经有自适应学习、迁移学习等技术开始支撑相关的应用,使得训练好的模型能够更好地适用于新的个体或场景。

贾珈认为,过去情感研究的默认前提和假设是情感的群体共性,即大家在表达同样的外显数据时,内心情感状态是一致的。那么关注个体独特性时,会面临数据和方法的问题。如何把控所需的个人数据量?在实际应用场景中,是否能真正获取到每个人所谓的独特数据呢?比如,当今互联网APP更强调便捷性,用户未必愿意注册个性化信息。

该问题可以分阶段逐步解决,不必把群体和个体看做非零即一的问题,而是把两者之间的过渡过程描述得粒度更细。比如,从性别、年龄层次、文化背景、职业特点等人口学属性(demographic),以及网络空间中的角色属性入手,让群体划分更接近于个性化,同时兼顾应用场景、数据和方法的便利性以及隐私保护问题。中国人讲求中庸之道,取一个合适的中间状态,这可能是现有条件限制下,追求个性化和共性平衡的一种方法。

宋睿华在个性模拟的工作中,也遇到了尚未解决的难点。虽然通过控制情绪波动的幅度,能够模拟性格活泼夸张和淡定内敛的人不同的情感起伏,但目前即使是利用共通的情感模拟出一个普通的人,也十分困难。机器在每轮情绪切换中比较跳跃,很难像人那样保持自然、连贯的变化。金琴补充,在情感识别研究中,英文和中文的数据集训练的情感模型亦存在差异、难以兼容。

个性化服务 VS 数据隐私

陶建华指出,个人情感分析问题在交互领域不断衍生着新的应用方式。比如在智能客服领域如何有效检测用户情感?如何进行客服人员的质检、监测其情感状态和通道的异常?另外,日趋成熟的测谎技术,也能够在话术引导下通过生理参数、甚至仅仅是音讯和视频信号等反应心理细微波动的参数来进行情感分析。

个性化服务和隐私保障之间存在一个tradeoff,取决于应用场景的需求。金琴举例,在疫情追踪中为了实现更高质量的目标和效果,隐私保护就会一定程度上蒙受损失。

贾珈则持乐观态度,“隐私是相对而非绝对的概念”,每个人对隐私的认知都有所不同,不如交给用户自己决定是否接受。例如让用户自主选择是否尝试某个功能,从而尊重和保护用户的个人意愿。

赋能产业界的未来方向

陶建华认为,情感计算的研究成果已经开始运用到人机交互、心理疾病诊断与治疗、驾驶者疲劳度检测、测谎等多个领域。目前甚至一些初创公司主打的类型就是跟情感计算有关的产品应用,包括Pichard结合穿戴式设备所做的情感计算的应用工作。那么如何与更多的应用场景进行衔接呢?

其实研究者们很早就在做相关技术储备,但还需要商业界和工业届挖掘相关的真实需求。例如人脸识别技术就被利用在门禁安防系统、人流监控等非常好的应用场景。那么多模态情感识别的研究到底以怎样的应用场景在产业界爆发,宋睿华觉得仍然很难预测。

金琴强调,随着机器智能和知识达到一定水平,马洛斯五大需求层次上的精神需求会更加强烈。现阶段情感计算仍非核心生产力,需要技术发展积累到一定程度才会出现所谓的“killer application”来造福大众。

贾珈的角度很巧妙,情感计算其实可以运用在产业界很多发展成熟的领域。比如基于主题的推荐系统,根据用户点击率来作为内容衡量标准,其实存在着天花板。如果能够大概分析出当时的情绪脉搏,在捕捉到负面情绪时反其道行之,推荐一些正能量的内容,其实可以提高推荐质量。内容推荐本质上是一个了解用户的过程,心理情绪是其中重要的因素。

另一方面,情感计算在压力检测、抑郁检测等消除负面情绪方面的应用,其实能够帮助企业更好地肩负人文关怀的责任。

展望:情感计算的下一个里程碑

贾珈认为,在数据驱动和知识驱动的AI3.0时代,从知识角度来讲,心理学几百年积攒的人类智慧和经典理论不能抛掉;从数据角度来看,互联网是人类社会中物理和心理状态的虚拟投影,网络空间能带给我们更为宏观的情感产生、影响和传播机制,从而反哺心理学,揭示更为宏大的人类情感的规律。将纯白盒的理论研究和纯黑盒的统计模型结合,能够屏蔽数据偏向性和知识局限性,从而打开情感计算的新局面。

宋睿华主张,下一个里程碑是情感模拟的自主性。当前的情感计算仍然偏向应对性,机器根据情境来理解和应答。未来希望AI能够如同声情并茂的演员一样,传达自身富有感染力的主观情感。金琴亦满怀期待地憧憬,未来文本、语音、视觉结合的多模态情感识别能够更加高效、精准和通用。

陶建华回顾自己从语音通道到多模态情感计算的研究历程,认为情感与语义理解的深度融合,会是下一个重要的里程碑。咨询机构Gartner也对情感智能进行了相应预测,情感智能的应用会在未来产生爆发式增长,必然会和生活领域中的更多应用实现更深层次的结合!