2020年11月20日,由中国科学技术协会主办,中国国际科技交流中心、中国人工智能学会、新加坡通商中国承办的“中新数字经济与人工智能高峰论坛”云端召开。主题报告环节,新加坡南洋理工大学计算机科学与工程学院副院长林维斯教授带来了《视觉协同智能及产品化前景》的精彩演讲。
林维斯
新加坡南洋理工大学计算机科学与工程学院副院长、教授
以下是林维斯教授的演讲实录:
视觉协同智能和其产品化的前景是我们团队和其他团队共同感兴趣,并进行合作的一个研究课题。
实现视觉智能,我们现在用不同的仪器和设备来收集视频数据,包括手机、机器人、监控摄像头,以及一些车载的设备。传统上收集了图像或视频信号数据后,将整个图像视频信号传到云端的数据中心。怎么传送这些数据?首先,将所有的视频信息进行压缩后,直接传送到云端,主要的智能计算都是在云端完成。现在,视频信息压缩技术很成熟,一般只有数据压缩是边缘计算。
把所有信号传送到云端,信道和云端负荷很大,最终用户端也可能需要担负大量的计算和能耗。除了把整个图像视频信号传到云端,也可以在边缘端加工图像或视频信号,收集视频中云端和用户端可以真正用得到的信号特征。CDVS 是现有的特征提取压缩技术,专门用于图像检索。能否在边缘端进行数据提取加工,用于众多不同的视觉智能相关应用场景?我们可以把常用的神经网络算法中间层提取的信号特征进行压缩编码,把它输送到云端;云端可以接着对这些中间层特征进行进一步处理(如采用浅度学习网络)去解决相关的应用场景问题。从根本上说,这是一个边缘端和云端(或用户端)协同智能的问题,针对不同应用场景需求可以灵活实现各端负荷均衡和资源分配。这种做法的优势如下:
第一,有利于面向机器的视觉智能范式拓展。传统图像视频信号处理基本是面向人类视觉系统的,即假设人类是图像视频信号处理的最终用户。大量视觉信号还会继续服务于人类,但随着人工智能技术更广泛的应用,越来越多的机器将成为视觉信号的最终用户。上述的中间层(深度学习层)特征适用于这个范式的改变。
第二,设立的中间层特征包括了适用于各类应用场景最基本的视觉形态。它可以直接降低从边缘端传到云端的负荷,也可以让整个系统负荷均衡,资源合理使用,灵活适应新任务。
第三,它提供了解决大家担心的图像视频信号隐私问题的方案。由于中间层特征不涉及整张图片或整个视频信号,这就意味着随后在云端和用户端的传输、存储和加工过程中可以减少信息安全隐患及应对费用。
第四,视觉信号特征提取会更加准确(无论是采用机器学习方法与否)。传统的图像视频信号处理的流程是信号压缩编码 ( 边缘端 )—信号解码(云端或用户端)—特征提取(云端或用户端)—智能任务完成 (云端或用户端);基于中间层特征方案的流程是特征提取 ( 边缘端 )—特征压缩编码 ( 边缘端 )—特征解码(云端或用户端)— 智能任务完成(云端或用户端)。后者是在抽取完特征之后才进行压缩和传输,所以避免压缩和传输误差对特征提取精度的影响。
第五,新方法可能降低用户端的要求和能耗。假如我们让所有用户端去完成重复的特征提取,每个用户端须具备较强的运算能力并浪费众多终端的能源。如果一次性在边缘端提取中间层特征,就可以省掉很多运算及用电的环节。整个流程的效率提高会随着终端数目增加而变得更加明显。
在整个新流程中实现标准化,可以更好地促进应用产品化进程,包括新一代的视频监管、机器人、自动驾驶等。AVS 标准已经采纳了基于中间层特征编码提案,而 MPEG 和 JPEG 等标准也开始了面向机器智能的图像视频编码标准化工作。
图像视频压缩编解码技术取得了巨大的成功,但经过过去 30 多年来学术界和工业界不断研究和优化 , 现有的标准技术框架的发展空间已经越来越小。为应对这一挑战及面向机器智能的新时代需求,希望以上讨论的从边缘端提取中间层特征的可能性和前期的一些工作,能为未来图像视频编码及智能实现提供一个新的角度与起点。
(本报告根据速记整理)