🎃DeepFake详解
2023-9-18
| 2023-9-19
0  |  阅读时长 0 分钟
type
status
date
slug
summary
tags
password
category
Property
Sep 19, 2023 01:46 PM
icon

0、前言

简单来说,Deepfakes 是AI 生成的视频和图像,可以改变或捏造人物、事件和物体的真实情况。这项技术是一种人工智能,可以创建或处理看起来和听起来很逼真但不真实的图像、视频和音频。
Deepfake 技术每天都变得越来越复杂和易于使用。它可以用于各种目的,例如娱乐、教育、研究或艺术。但是,它也可能给个人和社会带来严重的风险,例如传播错误信息、侵犯隐私、损害声誉、冒充身份和影响公众舆论。
deepfake是媒体取证中的一个研究方向,在近两年热度很高。前一段时间Facebook出的DFDC竞赛,奖金是最近十几年最高的竞赛。国内也有很多的团队在做这个工作并且获得了很好的名次。最近的顶会也出了几篇。
deepfake简单的来看,是一个图像/视频二分类的问题,真实视频或者伪造视频。常见的检测方式一般分为空域上的检测或者在时域上的检测,相比于活体检测,目前这一领域还是比较好发文章的。国内众多的研究所及高校都有相关的课题组,微软亚研、阿里等企业也有相关的研究。以后毕业了可以做的方向是生物特征识别与安全、取证等相关的工作,也可以去计算机视觉相关的岗位。

1、分类

  • 一般地,deepfake可划分为如下四类:重现(reenactment),替换(replace),编辑(editing)和合成(synthesis)
  • 人脸编辑和合成是十分火热的研究课题,但重现替换是最大的问题:它们可以让攻击者进行控制身份和欺骗。下图展示了一些示例。其中,s和t表示为源身份和目标身份,将表示为对应身份的图像,
notion image
  • 重现和替换的对比
notion image
  • 编辑
notion image
  • 合成
notion image

1.1 重现(reenactment)

  • 重现使用源身份驱动目标身份,使得做的行为和一样。
  • 从已有研究来看,主要从以下方面展开:表情、嘴部、眼部、头部或身体躯干。
  • 表情重现,让目标身份的表情模仿源身份的表情(极端一点,泰罗奥特曼像你一样咧嘴大笑)。这在电影和视频游戏行业中具有极大的应用价值,如对演员的表情表演进行后期调整(安吉拉福音?)、在教育行业中对历史人物牛顿进行表情再现以讲解牛顿定理等。
  • 嘴部重现,或者说“配音”,目标身份的嘴部由驱动,或者是包含语音的音频输入。该技术的应用比如将逼真的语音配音成另一种语言并进行编辑。
  • 眼部重现的视线驱动眼睛的方向和眼睑的位置。这用于改善照片质量或在视频采访中自动保持眼神交流,哈哈。
  • 头部重现的头部位置由x_s驱动。这项技术主要用于在安全录像中对人脸进行朝向转正,并用作改善人脸识别软件的手段。
  • 身体重现(也称为姿态迁移和人的姿势合成)与上面列出的面部重现类似,不同之处在于身体躯干的重现。
  • 重现作为一种deepfake技术之一,攻击者能够用其假冒身份,控制一些说或做的事情,如诽谤、散布错误信息、篡改证据。比如,攻击者冒充他人,骗取朋友或家人信任,以此谋利;攻击者还可能出于勒索目的而生成令人尴尬的虚假材料,影响公众人物等。

1.2 替换(replace)

  • 替换指的是使用源身份内容替换目标身份 ,使得目标身份变成了源身份s。
  • 迁移(transfer) 常见的转移类型是面部转移,在时尚行业中用于不同服装中的个人虚拟试穿。
  • 交换(swap) 中最流行的是“换脸”,比如将普通人的身份与著名人物的身份交换来产生讽刺或不良的内容效果。换脸的另一种健康用途是在公共平台、场合中匿名化身份,以代替模糊或像素化。
  • 替换这种deepfake技术因其有害应用而闻名。例如,攻击者将受害者的脸庞换成色情女演员的身体,以侮辱、诽谤和勒索受害者。又比如,这种方法已被用作传播政治观点的工具(Oscar Schwartz. You thought fake news was bad? – the guardian. theguardian.com/technol deep-fakes-fake-news-truth, 5 2018. (Accessed on 03/02/2020))。

1.3 编辑(editing)

  • 通过添加、更改或删除目标身份的属性。例如,更换目标对象的衣服、胡子、年龄、体重、颜值和甚至种族、肤色。诸如FaceApp之类的应用程序使用户可以更改其外观,以娱乐之用。
  • 攻击者可以使用相同的过程来建立虚假的角色而误导他人。例如,可以使一个患病的领导者看起来健康的,震慑“敌方”(刘邦?诸葛亮?)。
  • 还有一种不道德的用途是:去除受害者的着装使其裸露,即所谓的一键脱衣

1.4 合成(synthesis)

  • 合成是在没有目标身份作为基础的情况下,所创建的Deepfake角色。
  • 人脸和身体合成技术可以创建素材,生成电影和游戏角色。
  • 但是,但负面之用同样是:在线创建假角色以进行其它诈骗、违法行为。

研究方向分类

目前的deepfake检测,从检测层级上讲有两类:
  • 一类工作认为,深度伪造检测,应该检测伪造过程中底层的artifact,比如本文中的[4,5,6,7,8]。这类文章通常非常善于设计网络架构、设计数据增强方式,设计loss等等,泛化性较差。
  • 另一类工作认为,深度伪造检测,应该关注伪造过程中难以复制的高层语义信息。比如本文中的[1,2,3,4,9,12]。这类文章通常不太在意底层网络架构(即使他们会使用各种各样的特征抽取器),而更关注网络抽取出的时序语义(目前还无工作基于图片语义),泛化性较好。
实现方法上讲,有监督学习(supervised)和基于个体的检测(identity-based)两类:
  • 基于个体的方法通常是将视频映射到能够识别个体的特征空间,然后根据新样本和已有实例之间的距离做出决策。这类检测需要真实个体视频的参考集合(reference set)。
  • 监督学习方法把检测作为一个真假分类问题。
除此之外,预训练[10,11]也是值得关注的一类方法。
模态角度看,除了传统的视频和音频外,随着带有伪造音频的数据集的出现,多模态的检测也成为新的问题[4]。

2、基础实现技术

deepfake技术通常由几种神经网络结合而来

2.1 编码-解码网络(ED)

  • encoder-decoder networks(ED)由编码网络encoder和解码网络decoder组成。
notion image
  • 连接编码和解码的中间层较窄,因此当训练:时,网络将被迫学习、汇总训练样本的高层语义概念。
  • 给定的分布,通常称e为编码或嵌入(embedding),而被称为“潜在空间(latent space)”。
  • Deepfake技术通常使用多个编码器或解码器,并操纵编码来影响输出。如果编码器和解码器是对称的,并且以目标训练网络,则该网络称为自动编码器,输出是x的重建。
  • ED的另一种特殊类型是变分自动编码器(VAE),其中编码器学习给定X的解码器后验分布。VAE比自动编码器在生成内容方面更好,因为潜在空间中的表征可以被更好地解耦。

2.2 卷积神经网络(CNN)

  • 与全连接网络相反,CNN擅长学习数据中(局部)结构模式并组合得到高层次表征,因此在处理图像方面效率更高。
  • CNN中的卷积层学习的是卷积核/滤波器参数,这些滤波器在输入图像上移动,提取抽象的特征图作为输出。
  • 随着网络变得越来越深,池化层降低维数,上采样层提高维数;它们可以灵活地构建用于图像的ED CNN。

2.3 生成对抗网络(GAN)

  • GAN是由Goodfellow等人于2014年首次提出的。
  • GAN由互相作用的两个神经网络组成:生成器G和鉴别器D。
notion image
  • G旨在欺骗D来创建伪样本,D学会区分真实样本(x∈X)和伪样本()。
  • 具体来说,有一个分别用于训练D和G的对抗损失:
  • 在对抗博弈下,G学习如何生成与原始分布无法区分的样本。
  • 训练后,将D丢弃,并使用G生成内容。当应用于图像时,此方法的优点是通常可以生成更高质量、逼真的图像样本。

2.4 图像转换网络(Pix2Pix、CycleGAN)

  • pix2pix可以完成从一个图像域到另一个图像域的转换。
  • 在pix2pix中,G以输入图像作为输入,在给定目标标签,希望G学习的映射。即希望G所生成的图像无限接近,而D区分
notion image
  • pix2pix是一种监督式、成对式的训练方式,对数据有严苛要求。
  • 提升版本的pix2pixHD可以用来生成具有更好保真度的高分辨率图像。
  • CycleGAN可以通过不成对的训练样本来进行图像转换。该网络由两组GAN构成,并形成一个循环约束:将图像从一个域转换为另一个域,然后再次返回时,确保一致性。
notion image

2.5 递归神经网络(RNN)

  • RNN是可以处理序列和可变长度数据的神经网络。
notion image
  • 在Deepfake制作中,RNN通常用于处理音频、视频。
  • RNN的更高级版本包括长期短期记忆(LSTM)和门递归单元(GRU)。

3、特征表示

大多数神经网络结构使用一些中间表示来捕获、控制源身份s和目标身份t的面部结构、姿势和表情等。
  • 有的使用面部动作编码系统( facial action coding system,FACS)并测量面部的每个分类动作单元(AU)。
  • 有的使用单目重建,从2D图像获得头部的3D可变形模型(3DMM),其中,姿势和表情使用矢量和矩阵参数化。使用3D渲染等。
  • 有的使用头部或身体的UV图来使网络更好地了解形状的方向。
  • 有的使用图像分割来帮助网络分离不同的语义区域(面部,头发等)。
  • 最常见的表示形式是特征点(也称为关键点),即面部或身体上一组定义的位置点。
  • 有的按通道分隔特征点,以使网络更容易标识和关联它们。
  • 类似地,面部边界和身体骨骼点的表示等。
  • 对于音频,常见方法是衡量音频段(主要语音频率)的Mel-Cepstral Coefficients(MCC)
 

4、Deepfake的一些流程示例

要生成目标的,重现和(人脸)替换类型的网络一般遵循以下过程(将x传递到以下pipeline):
  • (1)检测并裁剪面部;
  • (2)提取中间特征表示;
  • (3)根据一些驱动信息(例如,另一张脸)生成新(面部)内容;
  • (4)将生成的脸融合到目标帧中。
通常,一些驱动图像生成的方法有:
  • (1)让网络直接在图像上执行映射学习,
  • (2)使用ED解耦身份,然后进行修改/交换编码特征;
  • (3)在将其传递给解码器之前添加其他编码;
  • (4)在生成之前将中间人脸/身体的特征表示转换为所需的身份;
  • (5)通过光流驱动生成
  • (6)使用3D渲染,warped image或生成的内容进行组合,以创建初始内容(头发,场景等),然后将该合成(粗略结果)通过另一个网络( (例如pix2pix)以改善真实感。

5、技术挑战

  • 泛化性。生成网络是数据驱动的,因此在所生成的结果中反映了训练数据的特性;良好的效果受限于训练数据集,特定身份的高质量图像需要该身份的大量样本。
  • 成对式监督训练。其实还是数据问题,带标签成对具有GT的数据实在难以获取。为了避免这个问题,许多Deepfake网络通过使用自监督的方式进行训练,或者使用不成对的网络(例如CycleGAN),或者利用的ED网络的编码在潜在空间进行特征编辑。
  • 非期望特征迁移。有时会把源身份的特征或区域迁移到目标身份上。也许可以使用注意力机制、few-shot学习,解耦学习、跳跃连接等方法将更相关的信息传递给生成器。
  • 遮挡。遮挡可能是手、头发、眼镜或任何其他物品,这可能导致出现伪影、不合理的生成效果等。
  • 时间连贯性。 Deepfake视频通常会产生更明显的伪影,例如闪烁和抖动。这是因为大多数Deepfake网络在没有先前帧的上下文的情况下单独处理每个帧。为了减轻这种情况,一些研究人员要么将这种情况提供给G和D,要么进行时间连贯损失约束,要么使用RNN,或者对它们进行组合使用。

6、科技是一把双刃剑

  • deepfake技术日渐成熟,deepfake检测技术也在日益受到重视;
 

7、参考

 
  • deepfake
  • 科研名词解释多模态学习(MultiModal Learning)
    Loading...
    目录