以假乱真的AI换脸技术,真的毫无破绽吗?

来源:科普中国-科普融合创作与传播 作者:之遥科普 时间:2022/03/23

  出品:科普中国

  制作:之遥科普

  监制:中国科学院计算机网络信息中心

  从在围棋界战无不胜的“阿尔法狗”,到铺天盖地的“人脸识别”,机器学习给人们的生活带来了翻天覆地的改变。但随着AI技术的不断发展,以“智能换脸”为主要展现结果的Deepfake技术,给大家的生活带来了更多困扰

  2018年,加蓬总统Ali Bongo因中风在公共视野中消失了数月。政府为了安抚民心,新年公开了一段总统录制的新年致辞。这段新年致辞使用了Deepfake技术进行生成,但这个视频非但没有起到安抚民心的作用,反而让军方的资深大佬发现异常,最终导致了兵变。在这个事件中,“AI换脸”技术成为干扰政治选,降低政府公信力的一大推手

  在很多人的印象中,Deepfake技术除了能让有需求的人看到AI换脸色情小视频外,似乎都走在社会的阴影里。

  

  图1 deepfake图片

  (图片来源:http://zkres1.myzaker.com/

  对普通人而言,Deepfake技术可谓是以假乱真,毫无破绽。那面对网上流传的真假不一的视频,我们真的无法分辨

  不用担心,正所谓“魔高一尺,道高一丈”。在专业人士手中,通过细致的计算机分析,可以别出照片、视频的真假,让Deepfake技术处理过的内容“现出原形”。

  Deepfake技术的原理就是学习学习再学习

  要了解Deepfake技术如何被识破,首先就要了解什么是Deepfake技术。Deepfake是使用深度机器学习(deep machine learning)和假照片(fake photo)组合而成的一个词,可以理解为机器进行深度学习而制造的假照片、假视频等虚假产物。其中最常见的应用就是“AI换脸”,也就是将一个人的脸部移植到另一个人脸上。

  在进行换脸时,机器首先需要识别出人脸的位置。人脸的识别与校准在自动驾驶等领域也有着广泛的应用,目前的发展已经非常成熟,识别率在98%以上。

  换脸用的素材,与待换脸的视频中的人脸,他们的面部朝向、面部表情往往不同。因此,识别出人脸位置之后,机器要进一步对人脸进行校准。通过寻找面部具有鲜明特征的区域,机器可以确定每一帧中人脸的朝向、表情,进而将待换脸视频中需要插入的人脸与素材匹配起来。

  匹配完成之后,换脸技术也不是简单地就把换脸素材贴在了待换脸的人脸上。简单地贴图,可以轻松地被肉眼识别,难以达到“以假乱真”的效果。Deepfake技术进一步学习原理可以用人的行为来类比。

  如果你盯A脸看上100小时,接着去看B脸的照片;接下来让你凭记忆画出B的脸,那不管你的技术水平多高,最终都会画的跟A脸很像。所以,当我们训练机器,让机器学习用A脸的元素画出B脸时,就可以将A脸逼真地“画到”B脸上。

  

  图2 BA

  (图片来源:原创)

  逼真的Deepfake技术也有小破绽

  机器学习出的换脸视频、照片那么逼真,那Deepfake技术的破绽何在呢?

  中国有句古话叫做“若想人不知,除非己莫为”。换脸技术的破绽,就出在人脸素材的细节上。Deepfake技术使用A脸的元素来画出B脸,这一过程是对A脸元素的精巧拼接。而这一拼接的过程,势必不能完美地符合真实情况。

  纽约州布法罗-布法罗大学的计算机科学家,就从“眼睛”——这一人脸上最精致的元素入手,实现了对Deepfake技术的甄别。

  这一技术的核心原理基于眼球的反射。当外界环境的光照射到眼睛上时,就会产生反射,在角膜上生成图像。在真正的照片中,两只眼睛看同一物体,会具有非常相似的反射模式。但在Deepfake合成的照片中,两只眼睛的反射内容往往并不协调。很可能出现左眼“看见”一只小狗,右眼“看见”一辆卡车的情况。检测机器首先提取两只眼睛反射的内容,然后检测左右眼的反射内容、反射光强度等参数是否协调统一,就可以识别出照片、视频是否经过了合成。这一方法已被证明具有94%的实验有效性。

  除此之外,常见的检测方法还包括:

  (1)根据视频的2D图像估计三维姿势。使用Deepfake技术合成的视频,三维姿势可能会突然发生较大的突变。比如视频中的人,如果在上一帧胸口还是鼓起正在吸气的状态,下一帧就迅速变成胸口下沉吐气的状态,那就说明这个视频铁定是合成出来的。

  (2)捕捉Deepfake技术在处理视频时对图像进行扭曲而在环境中产生的“伪影”。

  (3)捕捉左右虹膜异色、光照与阴影不协调、几何建模错误等瑕疵。

  (4)针对名人的行为习惯,检测视频中是否有对应的特有行为特点(例如摸鼻子、歪嘴等)。

  

  图3 deepfake视频中的虹膜异色

  (图片来源:知乎)

  Deepfake检测中的“猫鼠游戏”

  在不断发展的过程中,Deepfake的检测技术仍然会面对不少挑战。

  第一点是有的技术本身需要一定的信息量。例如前述的眼球反射检测技术,如果视频里没有同时存在两只眼睛,就无法应用。针对虹膜颜色的检测,在视频画质较低时使用起来也较为困难。

  第二点是,检测技术和换脸技术是一个“不断发展,彼此竞争”的过程。例如前述的捕捉光照与阴影不协调的问题,换脸者可以在换脸时使用更多的资源进行光照模拟、渲染,从而保证阴影的生成质量。从这个角度讲,检测和换脸技术就像一场“猫鼠游戏”,二者不断迭代,你追我赶。今天检测技术提出了用眼球的反射光进行检测,明天换脸技术就可以把眼球的反射光模拟也放在学习内容之中。检测技术必须不断更新,才能跟上Deepfake技术发展的步伐。

  第三点是,检测技术距自动化还有一定距离。现有的检测技术耗费的时间都比较长,难以做到在用户上传视频的同时,短时间内自动完成检测和审核。距实用的自动Deepfake检测软件,还有一段路要走。

  第四点是,目前针对Deepfake技术还没有完善的法规。各个视频平台对于什么样的Deepfake视频是恶意的、违规的,有着自己的界定规则。同时,目前也没有关于Deepfake技术的相关法律。这就给针对Deepfake视频的检测、管控工作带来了很多困难。

  虽然Deepfake检测技术仍有诸多挑战,但是我们要相信,随着AI技术的不断发展,相关法规会逐渐完善,针对Deepfake的检测技术也会变得越来越准确、高效。终有一天,虚假的视频会在检测技术的“火眼金睛”下统统现出原形。钻技术的漏洞,滥用Deepfake技术,迟早会受到惩罚。

  参考文献

  ( Hu S , Li Y , Lyu S . Exposing GAN-generated Faces Using Inconsistent Corneal Specular Highlights[J]. 2020.

以假乱真的AI换脸技术,真的毫无破绽吗?

来源:科普中国-科普融合创作与传播 作者:之遥科普 时间:2022/03/23

  出品:科普中国

  制作:之遥科普

  监制:中国科学院计算机网络信息中心

  从在围棋界战无不胜的“阿尔法狗”,到铺天盖地的“人脸识别”,机器学习给人们的生活带来了翻天覆地的改变。但随着AI技术的不断发展,以“智能换脸”为主要展现结果的Deepfake技术,给大家的生活带来了更多困扰

  2018年,加蓬总统Ali Bongo因中风在公共视野中消失了数月。政府为了安抚民心,新年公开了一段总统录制的新年致辞。这段新年致辞使用了Deepfake技术进行生成,但这个视频非但没有起到安抚民心的作用,反而让军方的资深大佬发现异常,最终导致了兵变。在这个事件中,“AI换脸”技术成为干扰政治选,降低政府公信力的一大推手

  在很多人的印象中,Deepfake技术除了能让有需求的人看到AI换脸色情小视频外,似乎都走在社会的阴影里。

  

  图1 deepfake图片

  (图片来源:http://zkres1.myzaker.com/

  对普通人而言,Deepfake技术可谓是以假乱真,毫无破绽。那面对网上流传的真假不一的视频,我们真的无法分辨

  不用担心,正所谓“魔高一尺,道高一丈”。在专业人士手中,通过细致的计算机分析,可以别出照片、视频的真假,让Deepfake技术处理过的内容“现出原形”。

  Deepfake技术的原理就是学习学习再学习

  要了解Deepfake技术如何被识破,首先就要了解什么是Deepfake技术。Deepfake是使用深度机器学习(deep machine learning)和假照片(fake photo)组合而成的一个词,可以理解为机器进行深度学习而制造的假照片、假视频等虚假产物。其中最常见的应用就是“AI换脸”,也就是将一个人的脸部移植到另一个人脸上。

  在进行换脸时,机器首先需要识别出人脸的位置。人脸的识别与校准在自动驾驶等领域也有着广泛的应用,目前的发展已经非常成熟,识别率在98%以上。

  换脸用的素材,与待换脸的视频中的人脸,他们的面部朝向、面部表情往往不同。因此,识别出人脸位置之后,机器要进一步对人脸进行校准。通过寻找面部具有鲜明特征的区域,机器可以确定每一帧中人脸的朝向、表情,进而将待换脸视频中需要插入的人脸与素材匹配起来。

  匹配完成之后,换脸技术也不是简单地就把换脸素材贴在了待换脸的人脸上。简单地贴图,可以轻松地被肉眼识别,难以达到“以假乱真”的效果。Deepfake技术进一步学习原理可以用人的行为来类比。

  如果你盯A脸看上100小时,接着去看B脸的照片;接下来让你凭记忆画出B的脸,那不管你的技术水平多高,最终都会画的跟A脸很像。所以,当我们训练机器,让机器学习用A脸的元素画出B脸时,就可以将A脸逼真地“画到”B脸上。

  

  图2 BA

  (图片来源:原创)

  逼真的Deepfake技术也有小破绽

  机器学习出的换脸视频、照片那么逼真,那Deepfake技术的破绽何在呢?

  中国有句古话叫做“若想人不知,除非己莫为”。换脸技术的破绽,就出在人脸素材的细节上。Deepfake技术使用A脸的元素来画出B脸,这一过程是对A脸元素的精巧拼接。而这一拼接的过程,势必不能完美地符合真实情况。

  纽约州布法罗-布法罗大学的计算机科学家,就从“眼睛”——这一人脸上最精致的元素入手,实现了对Deepfake技术的甄别。

  这一技术的核心原理基于眼球的反射。当外界环境的光照射到眼睛上时,就会产生反射,在角膜上生成图像。在真正的照片中,两只眼睛看同一物体,会具有非常相似的反射模式。但在Deepfake合成的照片中,两只眼睛的反射内容往往并不协调。很可能出现左眼“看见”一只小狗,右眼“看见”一辆卡车的情况。检测机器首先提取两只眼睛反射的内容,然后检测左右眼的反射内容、反射光强度等参数是否协调统一,就可以识别出照片、视频是否经过了合成。这一方法已被证明具有94%的实验有效性。

  除此之外,常见的检测方法还包括:

  (1)根据视频的2D图像估计三维姿势。使用Deepfake技术合成的视频,三维姿势可能会突然发生较大的突变。比如视频中的人,如果在上一帧胸口还是鼓起正在吸气的状态,下一帧就迅速变成胸口下沉吐气的状态,那就说明这个视频铁定是合成出来的。

  (2)捕捉Deepfake技术在处理视频时对图像进行扭曲而在环境中产生的“伪影”。

  (3)捕捉左右虹膜异色、光照与阴影不协调、几何建模错误等瑕疵。

  (4)针对名人的行为习惯,检测视频中是否有对应的特有行为特点(例如摸鼻子、歪嘴等)。

  

  图3 deepfake视频中的虹膜异色

  (图片来源:知乎)

  Deepfake检测中的“猫鼠游戏”

  在不断发展的过程中,Deepfake的检测技术仍然会面对不少挑战。

  第一点是有的技术本身需要一定的信息量。例如前述的眼球反射检测技术,如果视频里没有同时存在两只眼睛,就无法应用。针对虹膜颜色的检测,在视频画质较低时使用起来也较为困难。

  第二点是,检测技术和换脸技术是一个“不断发展,彼此竞争”的过程。例如前述的捕捉光照与阴影不协调的问题,换脸者可以在换脸时使用更多的资源进行光照模拟、渲染,从而保证阴影的生成质量。从这个角度讲,检测和换脸技术就像一场“猫鼠游戏”,二者不断迭代,你追我赶。今天检测技术提出了用眼球的反射光进行检测,明天换脸技术就可以把眼球的反射光模拟也放在学习内容之中。检测技术必须不断更新,才能跟上Deepfake技术发展的步伐。

  第三点是,检测技术距自动化还有一定距离。现有的检测技术耗费的时间都比较长,难以做到在用户上传视频的同时,短时间内自动完成检测和审核。距实用的自动Deepfake检测软件,还有一段路要走。

  第四点是,目前针对Deepfake技术还没有完善的法规。各个视频平台对于什么样的Deepfake视频是恶意的、违规的,有着自己的界定规则。同时,目前也没有关于Deepfake技术的相关法律。这就给针对Deepfake视频的检测、管控工作带来了很多困难。

  虽然Deepfake检测技术仍有诸多挑战,但是我们要相信,随着AI技术的不断发展,相关法规会逐渐完善,针对Deepfake的检测技术也会变得越来越准确、高效。终有一天,虚假的视频会在检测技术的“火眼金睛”下统统现出原形。钻技术的漏洞,滥用Deepfake技术,迟早会受到惩罚。

  参考文献

  ( Hu S , Li Y , Lyu S . Exposing GAN-generated Faces Using Inconsistent Corneal Specular Highlights[J]. 2020.