跨媒体智能：让机器跨越“感官”鸿沟-

在科幻电影里面，荧幕上的“终结者”不仅能从自己看到的画面里检索出有用的信息，还能梳理自己的记忆和逻辑，跟人类毫无障碍地交流，这种强烈的科技感让人印象深刻。

反观我们当下很多智能技术和产品，智能化水平和科技感并不高，不论是智能音箱、人脸识别闸机、刷脸支付、巡逻机器人，还是送餐机器人，“感官”能力过于单一和简单，多种感官能力仅仅是物理层面的叠加。对于智能机器来说，提高视觉、听觉、触觉等多种生物感官复合能力与信息复用能力，是增强智能化水平的一个重要研究方向，跨媒体智能便是其中的一项重要技术。

何为跨媒体智能？

我们人类可以通过语言、文字、图片等多种媒体形态接收到同样一个信息。当我们理解这个信息后，会从大脑中回想与之相关联的多种记忆，这些记忆可能来自书籍、影视、交流、画册等多种载体。我们从不同时间维度的记忆里去思考、推理，得到另外一个信息，然后轻而易举地把它写出来、说出来，或用其他途径将它反馈出来。在智能机器中，实现以上信息处理流程，便是跨媒体智能。

对于智能机器来说，上述的信息处理流程是在多元异构的大数据里进行信息的分析、识别、检索和推理。实现这套流程需要依赖大量的人工智能技术、互联网技术，以及先进硬件和系统的支持。清华大学在这方面做了深入的研究，清华大学电子系媒体大数据中心的人像态势识别技术，将人的像态、形态、神态、意态信息，通过 AI算法进行分析和提取；图像描述算法是机器自动对图像生成描述文字，既可以实现图像与文本信息之间的推理，又能改变图像的存储方式；数据服务平台技术则是支持数据存储管理、推理演示、搜索引擎、行业技能知识存储等功能；新型感知芯片是研究模拟生物皮肤的高灵敏度触觉感知器件和芯片，构建高精度的触觉传感器和电子皮等技术。而这些基于AI及大数据技术，都是跨媒体智能的基础。

基于这些技术的支持，跨媒体智能不仅仅是让智能机器拥有更多的感官能力，更是打破这些能力之间的物理隔离，让信息在更高维度层面进行融合和复用，真正让机器的感官能力“动起来”。

目前，跨媒体智能在行业内也有着比较典型的应用。落地在粤港澳大湾区的紫为云·清华AI使能平台，正是依托清华AI技术，成功推出多种跨媒体智能技术。平台的大规模动态人员聚类系统，可简单理解为在海量图像视频数据中，提取人脸、人体、时间以及位置等信息，将这些信息进行融合关联，能够把侧对摄像头、佩戴口罩和头盔、背光，以及低头等复杂情况下的人员进行识别，实现在开放环境中的身份确认和检索。交通违章废片智能过滤系统，是对交通场景中违章驾驶的抓拍照片或视频，进行人车物的定位识别和检索，汇集车辆、车牌、驾驶员、红绿灯、地标、路标、路桩、车道线、路况信息，以及地域性规则等信息，将这些交通信息进行融合后，根据交通法律法规进行推理，判断车辆是否违章，辅助交警治理交通安全。

随着这些跨媒体智能技术的应用落地，科技正从方方面面改变着人们的生活。而当下产学研各界也正致力于跨媒体智能技术的研究和突破，逐步打磨高维度与多维度的算法融合，着力实现类脑机器人的核心算法技术簇，将让公众享受更智能、更便捷和更安全的智能服务。

（作者系清华大学电子系教授）