• GAN (Generative Adversarial Network)


    https://www.bilibili.com/video/av9770302/?p=15

    前面说了auto-encoder,VAE可以用于生成

    VAE的问题,

    AE的训练是让输入输出尽可能的接近,所以生成出来图片只是在模仿训练集,而无法生成他完全没有见过的,或新的图片

    由于VAE并没有真正的理解和学习如何生成新的图片,所以对于下面的例子,他无法区分两个case的好坏,因为从lost上看都是比7多了一个pixel

    所以产生GAN,

    大家都知道GAN是对抗网络,是generator和discriminator的对抗,对抗是有一个逐渐进化的过程

    而generator不会看到训练集,训练集只用来训练discriminator,所以generator是试图去生成新的图片,而不是单纯的模仿训练集

    过程是,

    我们通过V1的generator的输出和real images来训练V1的discriminator,让V1的discriminator可以判别出两者的差别

    然后,将V1的generator和V1的discriminator作为整体network训练(这里需要固定discriminator的参数),目标就是让generator产生的图片可以骗过V1的discriminator

    这样就产生出V2的generator,重复上面的过程,让generator和discriminator分别逐渐进化

     

    训练Discriminator的详细过程, 

    训练generator的详细过程,

    可以看到 generator会调整参数,产生image让discriminator判别为1,即骗过discriminator

    并且在网络训练的时候,虽然是把generator和discriminator合一起训练,但是要fix住discriminator的参数,不然discriminator只需要简单的迎合generator就可以达到目标,起不到对抗的效果

    下面从理论上来看下GAN,

    GAN的目的是生成和目标分布(训练集所代表的分布)所接近的分布

    Pdata就是训练数据所代表的分布

    PG是我们要生成的分布

    所以我们的目标就是让PG和Pdata尽可能的close

    从Pdata中sample任意m个点,然后用这些点去计算PG,用最大似然估计,算likelihood

    让这些点在PG中的概率和尽可能的大,就会让PG分布接近Pdata

    这里的推导出,上面给出的最大似然估计,等价于求Pdata和PG的KL散度,这个是make sense的,KL散度本身就用来衡量两个分布的相似度

    这里PG可以是任意函数,比如,你可以用高斯混合模型来生成PG,那么theta就是高斯混合中每个高斯的参数和weight

    那么这里给定参数和一组sample x,我们就可以用混合高斯的公式算出PG,根据上面的推导,也就得到了两个分布的KL散度

    当然高斯混合模型不够强大,很难很好的去拟合Pdata

    所以这里是用GAN的第一个优势,我们可以用nn去拟合PG

    这个图就是GAN的generator,z符合高斯分布,z是什么分布不关键也可以是其他分布

    通过Gz函数,得到x,z可以从高斯分布中sample出很多点,所以计算得到很多x,x的分布就是PG;只要nn足够复杂,虽然z的分布式高斯,但x可以是任意分布

    这里和传统方法,比如高斯混合的不同是,这个likelihood,即PG不好算,因为这里G是个nn,所以我们没有办法直接计算得到两个分布的KL散度

    所以GAN需要discriminator,它也是一个nn,用discriminator来间接的计算PG和Pdata的相似性,从而替代KL散度的计算

    GAN可以分成Generator G和Discriminator D,其中D是用来衡量PG和Pdata的相似性

    最终优化目标的公式,看着很唬人,又是min,又是max

    其实分成两个步骤,

    给定G,优化D,使得maxV(红线部分),就是训练discriminator,计算出两个分布之间的差异值;在上图中就是在每个小图里找到那个红点

    给定D,优化G,使得min(maxV),就是在训练generator,最小化两个分布之间的差异;就是在上图中挑选出G3

    这里有个问题没有讲清楚的是,

    为何给定G,优化D,使得maxV,得到的V可以代表两个分布的差异?

    如果这个问题明白了,下一步优化G,去最小化这个分布间的差异是很好理解的

    做些简单的转换,如果我们要最后一步这个积分最大,那么等价于对于每个x,积分的内容都最大

    这里是给定G,x,Pdata(x),PG(x)都是常量,所以转换成D的一个简单函数

    求最大值,就极值,就是求导找到极点

    这里推导出当V max的时候, D的定义,并且D的值域应该在0到1之间

    上面推导出如果要Vmax,D要满足

    所以进一步将D带入V的公式,这里经过一系列推导得到,V就等价于jensen-shannon divergence

    jensen-shannon divergence的定义,如下,

    比KL divergence好的是,KL是非对称的,而jensen-shannon divergence是对称的,可以更好的反应两个分布间的差异

    那么这里的推导就证明,给定G,优化D让V最大的时候,V就表示Pdata和PG的jensen-shannon divergence,所以这个Vmax就可以表示这个两个分布的差异,也就回答了前面的问题

    总结一下,

    GAN,有两部分Generator G,Discriminator D

    我们的目的是找到一个G,可以生成出足够好的x,即满足minmaxV(G,D),其中V的定义在蓝框中

    GAN分两步,先给定G,去MaxD,然后再通过找到最优的G以满足,Pg(x) = Pdata(x)

    MaxV,给定G,找到最大D,所以可以看成G的函数,设为L(G)
    那么这样找到最优G,就是对L(G)进行梯度下降

    这里的问题是L(G)中有一个Max,如何梯度下降?
    下面给出一个例子,给定x先找出max的D,再对D做梯度下降

    所以算法的步骤,

    给定G0,max V得到D0,这里V(G0,D0)就Pdata和PG的JS divergence

    然后固定D0,对V进行梯度下降,尽量降低JS divergence,得到G1,。。。。。。

    但这里会有一个问题,

    从G0梯度下降到G1,如果step太大,会导致图中的情况,在G1,D1会和D0差的比较远,这样有可能V(G,D)反而变大了

    但是我们只要控制住G的变化程度,这个问题就可以避免

    在实际实现的时候,对于V,我们是无法算出Pdata,PG的期望的

    所以只能sample,对Pdata,PG中进行m个sample

    所以对于给定G,我们要算使得V max的D,这就是在训练discriminator

    把m个sample的数据带入V的公式,期望E就变成求平均

    这个式子就等同于binary classifer,这个很直觉,本身discriminator就是在训练一个二元分类,来判断是否是生成数据

    完整的过程如上,分为两部分,

    Learning D,需要固定G,去maximize V,所以这里用的梯度上升,这个步骤可以做多次,以尽量找到max

    Learning G,固定D,去minimize V,用梯度下降,这个步骤只做一次,上面说了如果G变化太大,会导致JS divergence变大而不是变小;用红线划掉部分,因为和G无关,所以梯度下降时可以去掉

    实现上,learning G的时候,我们往往不会对上面那个式子做梯度下降,因为你可以看图,D(X)比较小的时候(开始训练时,D会很小),这个曲线的梯度是很小的,很难训练

    所以会用下面的式子替代,这样,在开始训练时候梯度会比较大,训练较快

    在训练GAN的时候,往往会出现discriminator过强,导致无法训练的问题,

    比如上面的例子,强弱两种generator,但是在discriminator看来,没有区别,它都可以很轻松的判别出他们是false的,这样就会无法训练,因为没有梯度

    为何discriminator很容易判断出Pdata和PG是完全没有交集?

    两个原因,首先因为我们只是对分布做了sample,所以虽然两个分布有交集,但是我们sample的数据有可能很容易被过拟合绕开

    再者,data是高维空间的manifold,所以重叠的部分可能非常的小,导致discriminator认为没有重叠

    所以问题就在于,你无法从PG0直接跳到PG100,需要逐渐演化,而过强的discriminator会导致在100之前,JS divergence一直是log2,这样就完全没有梯度

    这个比较简单的解决方法就是给discriminator加noise,效果如图,会让分布的overlap更加明显

    但这个noises需要随着时间递减,因为随着generator变强,noise会干扰正常的训练

    Conditional GAN

     

    Conditional GAN的不同就是,需要给一个条件输入,比如这里的text,train
    这里用GAN和其他简单的模型的差异是,GAN还有一个输入是z,在是一个prior distribution的sample,所以一个条件train对应的不是一个输出,而是一个分布
    这里对于train可能有很多种picture,所以更为合理,普通的nn一个输入只对应一个输出

    同样对于discriminator,也要同时输入condition和x,来进行判别

  • 相关阅读:
    Investment
    The Fewest Coins
    Bone Collector II
    Cow Exhibition
    饭卡
    A + B Problem II
    F
    敌兵布阵
    单例模式
    面向对象
  • 原文地址:https://www.cnblogs.com/fxjwind/p/9275744.html
Copyright © 2020-2023  润新知