1:js散度的缺陷
[注]由于噪声的存在,起初不可能与真实数据的分布有重合,故会导致js一直得不到更新,而v对G的梯度也会一直处于0的状态,故会导致training不稳定。
2:解决思想:如下图
【注】其思想如两座不同的山一样,可以通过选择一种最好的方案,使得所需要移动土的距离最小。
「住」对w进行clipping不是最好的选择。故提出了WGAN-GP。
[注]其最终只需要用D来模拟f()函数【也即是WD】即可。
【注】必须要约束f上任意一点的导数必须小于<=1(即满足1-Lipschitz),f更加平滑,在更新时,才会一直有梯度进行引导,使得pg更加接近pr。
[主]Δx是对x的求导,不再是w。即使是对x求导,也不是对每一个都求导,而是随意sample一部分点进行求导。