在科幻电影里面,荧幕上的“终结者”不仅能从自己看到的画面里检索出有用的信息,还能梳理自己的记忆和逻辑,跟人类毫无障碍地交流,这种强烈的科技感让人印象深刻。
反观我们当下很多智能技术和产品,智能化水平和科技感并不高,不论是智能音箱、人脸识别闸机、刷脸支付、巡逻机器人,还是送餐机器人,“感官”能力过于单一和简单,多种感官能力仅仅是物理层面的叠加。对于智能机器来说,提高视觉、听觉、触觉等多种生物感官复合能力与信息复用能力,是增强智能化水平的一个重要研究方向,跨媒体智能便是其中的一项重要技术。
何为跨媒体智能?
我们人类可以通过语言、文字、图片等多种媒体形态接收到同样一个信息。当我们理解这个信息后,会从大脑中回想与之相关联的多种记忆,这些记忆可能来自书籍、影视、交流、画册等多种载体。我们从不同时间维度的记忆里去思考、推理,得到另外一个信息,然后轻而易举地把它写出来、说出来,或用其他途径将它反馈出来。在智能机器中,实现以上信息处理流程,便是跨媒体智能。
对于智能机器来说,上述的信息处理流程是在多元异构的大数据里进行信息的分析、识别、检索和推理。实现这套流程需要依赖大量的人工智能技术、互联网技术,以及先进硬件和系统的支持。清华大学在这方面做了深入的研究,清华大学电子系媒体大数据中心的人像态势识别技术,将人的像态、形态、神态、意态信息,通过 AI算法进行分析和提取;图像描述算法是机器自动对图像生成描述文字,既可以实现图像与文本信息之间的推理,又能改变图像的存储方式;数据服务平台技术则是支持数据存储管理、推理演示、搜索引擎、行业技能知识存储等功能;新型感知芯片是研究模拟生物皮肤的高灵敏度触觉感知器件和芯片,构建高精度的触觉传感器和电子皮等技术。而这些基于AI及大数据技术,都是跨媒体智能的基础。
基于这些技术的支持,跨媒体智能不仅仅是让智能机器拥有更多的感官能力,更是打破这些能力之间的物理隔离,让信息在更高维度层面进行融合和复用,真正让机器的感官能力“动起来”。
目前,跨媒体智能在行业内也有着比较典型的应用。落地在粤港澳大湾区的紫为云·清华AI使能平台,正是依托清华AI技术,成功推出多种跨媒体智能技术。平台的大规模动态人员聚类系统,可简单理解为在海量图像视频数据中,提取人脸、人体、时间以及位置等信息,将这些信息进行融合关联,能够把侧对摄像头、佩戴口罩和头盔、背光,以及低头等复杂情况下的人员进行识别,实现在开放环境中的身份确认和检索。交通违章废片智能过滤系统,是对交通场景中违章驾驶的抓拍照片或视频,进行人车物的定位识别和检索,汇集车辆、车牌、驾驶员、红绿灯、地标、路标、路桩、车道线、路况信息,以及地域性规则等信息,将这些交通信息进行融合后,根据交通法律法规进行推理,判断车辆是否违章,辅助交警治理交通安全。
随着这些跨媒体智能技术的应用落地,科技正从方方面面改变着人们的生活。而当下产学研各界也正致力于跨媒体智能技术的研究和突破,逐步打磨高维度与多维度的算法融合,着力实现类脑机器人的核心算法技术簇,将让公众享受更智能、更便捷和更安全的智能服务。
(作者系清华大学电子系教授)