版权归原作者所有,如有侵权,请联系我们

[科普中国]-生成对抗结构

科学百科
原创
科学百科为用户提供权威科普内容,打造知识科普阵地
收藏

生成对抗结构GAN (Generative adversarial networks)目前已经成为人工智能学界一个热门的研究方向,GAN的基本思想源自博弈论的二人零和博弈,由一个生成器和一个判别器构成,通过对抗学习的方式来训练,目的是估测数据样本的潜在分布并生成新的数据样本,在图像和视觉计算、语音和语言处理、信息安全、棋类比赛等领域,GAN正在被广泛研究,具有巨大的应用前景。

概述生成对抗结构GAN 是Goodfellow等在2014年提出的一种生成式模型,GAN在结构上受博弈论中的二人零和博弈(即二人的利益之和为零,一方的所得正是另一方的所失)的启发,系统由一个生成器和一个判别器构成,生成器捕捉真实数据样本的潜在分布,并生成新的数据样本;判别器是一个二分类器,判别输入是真实数据还是生成的样本,生成器和判别器均可以采用目前研究火热的深度神经网络。GAN的优化过程是一个极小极大博弈问题,优化目标是达到纳什均衡,使生成器估测到数据样本的分布。

在当前的人工智能热潮下,GAN的提出满足了许多领域的研究和应用需求,同时为这些领域注入了新的发展动力,GAN已经成为人工智能学界一个热门的研究方向,著名学者LeCun甚至将其称为“过去十年间机器学习领域最让人激动的点子”,目前,图像和视觉领域是对GAN研究和应用最广泛的一个领域,已经可以生成数字、人脸等物体对象,构成各种逼真的室内外场景,从分割图像恢复原图像,给黑白图像上色,从物体轮廓恢复物体图像,从低分辨率图像生成高分辨率图像等。此外,GAN已经开始被应用到语音和语言处理、电脑病毒监测、棋类比赛程序等问题的研究中。1

GAN的应用领域作为一个具有“无限”生成能力的模型,GAN的直接应用就是建模,生成与真实数据分布一致的数据样本,例如可以生成图像、视频等。GAN可以用于解决标注数据不足时的学习问题,例如无监督学习、半监督学习等,GAN还可以用于语音和语言处理,例如生成对话、由文本生成图像等。

图像和视觉领域GAN能够生成与真实数据分布一致的图像,一个典型应用来自Twitter公司,Ledig等提出利用GAN来将一个低清模糊图像变换为具有丰富细节的高清图像。

GAN也开始用于生成自动驾驶场景,Santana等提出利用GAN来生成与实际交通场景分布一致的图像,再训练一个基于RNN的转移模型实现预测的目的。GAN可以用于自动驾驶中的半监督学习或无监督学习任务,还可以利用实际场景不断更新的视频帧来实时优化GAN的生成器。

Gou等提出利用仿真图像和真实图像作为训练样本来实现人眼检测,但是这种仿真图像与真实图像存在一定的分布差距。Shrivastava等提出一种基于GAN的方法(称为SimGAN),利用无标签真实图像来丰富细化仿真图像,使得合成图像更加真实。引入一个自正则化项来实现最小化合成误差并最大程度保留仿真图像的类别,同时利用加入的局部对抗损失函数来对每个局部图像块进行判别,使得局部信息更加丰富。

语音和语言领域目前已经有一些关于GAN的语音和语言处理文章。Li等提出用GAN来表征对话之间的隐式关联性,从而生成对话文本。Zhang等提出基于GAN的文本生成,他们用CNN作为判别器,判别器基于拟合LSTM的输出,用矩匹配来解决优化问题;在训练时,和传统更新多次判别器参数再更新一次生成器不同,需要多次更新生成器再更新CNN判别器。SeqGAN基于策略梯度来训练生成器G,策略梯度的反馈奖励信号来自于生成器经过蒙特卡洛搜索得到,实验表明SeqGAN在语音、诗词和音乐生成方面可以超过传统方法。Reed等提出用GAN基于文本描述来生成图像,文本编码被作为生成器的条件输入,同时为了利用文本编码信息,也将其作为判别器特定层的额外信息输入来改进判别器,判别是否满足文本描述的准确率,实验结果表明生成图像和文本描述具有较高相关性。1

GAN的意义和优点GAN对于生成式模型的发展具有重要的意义,GAN作为一种生成式方法,有效解决了可建立自然性解释的数据的生成难题,尤其对于生成高维数据,所采用的神经网络结构不限制生成维度,大大拓宽了生成数据样本的范围.所采用的神经网络结构能够整合各类损失函数,增加了设计的自由度。GAN的训练过程创新性地将两个神经网络的对抗作为训练准则并且可以使用反向传播进行训练,训练过程不需要效率较低的马尔科夫链方法,也不需要做各种近似推理,没有复杂的变分下界,大大改善了生成式模型的训练难度和训练效率,GAN的生成过程不需要繁琐的采样序列,可以直接进行新样本的采样和推断,提高了新样本的生成效率,对抗训练方法摒弃了直接对真实数据的复制或平均,增加了生成样本的多样性.GAN在生成样本的实践中,生成的样本易于人类理解。例如,能够生成十分锐利清晰的图像,为创造性地生成对人类有意义的数据提供了可能的解决方法。

GAN除了对生成式模型的贡献,对于半监督学习也有启发,GAN学习过程中不需要数据标签,虽然GAN提出的目的不是半监督学习,但是GAN的训练过程可以用来实施半监督学习中无标签数据对模型的预训练过程,具体来说,先利用无标签数据训练GAN,基于训练好的GAN对数据的理解,再利用小部分有标签数据训练判别器,用于传统的分类和回归任务。1

本词条内容贡献者为:

王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所