科幻作家尼尔·斯蒂芬森(Neal Stephenson)在其1992年写的小说《雪崩》(Snow Crash)中,描述了一个平行于现实世界的网络世界。在原著中,尼尔将其命名为Metaverse,即元宇宙。在他的定义下,这是一个脱胎于现实世界,又与现实世界平行、相互影响,并且始终在线的虚拟世界。
而今天,“元宇宙”被广泛提及,让不少相关产业从小众逐渐走入大众视野,虚拟数字人便是其中之一。
一、何为数字人?
虚拟数字人是以数字形式存在,具有人的外观、特点、行为,依赖科技展示的虚拟形象,具有存在于非物理空间、数字技术合成和高度拟人化特征三个核心要素。当虚拟数字人逐步走向现实世界,人们不禁好奇,其在技术层面上是如何实现的?当数字人介入人类世界后,又将对人类社会产生怎样的挑战?
根据中国人工智能产业发展联盟发布的《2020年虚拟数字人发展白皮书》,虚拟数字人的发展与其制作技术的进步密不可分,从最早的手工绘制到现在的电脑绘图(CG)、人工智能合成,随着深度学习算法的持续突破,虚拟数字人朝着智能化、便捷化、多样化的方向发展。
图片来源:pixabay
建模、物理仿真、渲染、动捕、面捕和人工智能等技术的不断迭代,推动了数字人制作效能和智能水平的提升,不仅为其打造“好看的皮囊”,还尝试赋予其“有趣的灵魂”,进而给用户带来亲切感、参与感、互动感和沉浸感。
根据量子位硬科技深度产业报告,在技术层面,虚拟数字人可分为真人驱动和计算驱动两种类型。真人驱动在动作灵敏度、互动效果方面有明显优势,广泛应用于影视内容创作和虚拟偶像和重要直播。真人驱动型虚拟数字人的技术流程主要包括:1.形象设计及建模;2.建模绑定;3.表演捕捉;4.驱动及渲染;5.生成内容,进行互动。
随着图像识别技术的进步,普通摄像头结合理想的识别算法通常能实现较为精准地驱动,显著降低了真人驱动型内容生成的门槛。
而计算驱动型虚拟数字人则是近年来多模态技术和深度学习发展的技术集大成者。这类数字人的语音表达、面部表情、具体动作主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。
计算驱动型虚拟数字人的技术流程包括:1.设计形象。扫描真人形态及表演,采集驱动数据;2.形象建模,进行关键点绑定;3.训练各类驱动模型,这是决定最终效果的核心步骤。充足的驱动关键点配合精度较高的驱动模型,能够高度复原人脸骨骼和肌肉的细微变化,得到逼真的表情驱动模型。4.内容制作。基于输入的语音(或由输入文本转化的语音),预测唇动、表情等参数。5.进行渲染,生成最终内容,直播时进行实时渲染。
二、“拟人化”效果的主要影响因素
首先,CG建模/图像迁移技术会影响外观呈现,即虚拟数字人外观的拟人程度;其次,NLP交互技术以对话能力为核心,会影响交互体验。继文本对话助手、语音AI助手后,该技术继续在虚拟数字人中发挥核心作用,可以视为虚拟数字人的大脑;最后,CV等深度学习模型会影响驱动效果,表现在面部表情变动、肢体变动等方面。
根据IDC的预测报告,到2026年,中国人工智能数字人市场规模将达到102.4亿元。未来,我们的社会也许将会围绕虚拟人构建出一个更丰富的虚拟生态。然而,虚拟人市场火热的背后,既存在监管难点,也有法律和伦理道德等方面的风险。比如,在2022江苏卫视跨年演唱会上,还原邓丽君形象及音色的“邓丽君”虚拟人作为嘉宾现身,惊艳全场。
西南大学法学院教授张新民分析,在赞叹让邓丽君“复生”的虚拟现实技术的同时,人们往往忽略了虚拟人现象所涉及的法律和伦理问题。其中包括被“复活”人物名誉权保护问题,已故人物形象数字化商业利用权问题,虚拟人创作者或已故人物“复活”创作者的权利、义务和责任问题,“复活”艺人虚拟表演的举办者或网络播放平台的审查义务以及政府相关部门的监管责任问题等。
此外,还要警惕虚拟人在学习过程中将偏见与恶意“反哺”给人类。未来,人类可能会到达一个临界点,即与虚拟人互动的时间达到甚至超过和真人互动的时间,有些人可能会沉浸于虚拟世界,或者从虚拟人身上寻找主要的情感依托,也可能引发一系列社会问题。
这需要社会在跟踪技术的同时,尽快更新相关人文社会科学的研究,让社会管理、伦理道德与技术发展相协调,出台相应法律法规和行业规范,保障虚拟人行业的良性健康发展。
如今,我们已经可以感知到,虚拟世界正在逐渐侵蚀现实世界。人们好似通过数据的上传、更新在构造虚拟世界当中的另一个自我;而虚拟人们则以这些数据为食,在与真实世界的互动中模糊着两个世界的边界。在科技的巨变之中,希望我们可以保持好奇与谨慎,持续探索未知的边界。
文章由科普中国-星空计划(创作培育)出品,转载请注明来源。
作者:管心宇 科普作者
审核:于旸 腾讯玄武实验室负责人