概
解耦表示学习(disentangled representations)通常假设图片有独立的几个因素决定, 即:
本文对这个假设提出质疑.
主要内容
VAE 首先通过encoder 将(x)映射为隐变量(z), 再通过隐变量(z)恢复出(x), 其中赋予先验(p(z))常常为标准正态分布, 并且最大化ELBO的同时要最小化:
这表示我们希望所提取的隐变量(z)的各分量是相互独立. 形象地说, 我们改变(z_i)就有图片相应的元素发生改变而其它元素不变. 作者认为这种假设简单而美好, 但是在无监督的模式下, 该假设是不可能成立的.
实际上, 假设先验分布的确如此(p(z) = prod_{i}^d p(z_i)), 则一定存在一个双射(f: mathrm{supp}(z) ightarrow mathrm{supp}(z)), 是的(frac{partial{f_i(z)}}{partial z_j} ot = 0, mathrm{a.e.}, forall i, j), 且(z, f(z))同分布, 即
又因为(f)是一个双射, 故
进一步有
故边缘分布是一致的, 这意味着, 我们除了(p(z)), 还有(p(f(z)))同样可以到处我们的观测数据(P(x)), 反之, 没有额外的信息(即在无监督条件下)我们无法确定所拟合的分布是(p(z))还是(p(f(z))).
倘若是后者, 我们改变隐变量的某一个维度(f_i), 由于偏导数均不为0, 则几乎所有的(z)都改变了, 也就是真正的控制元素都会发生改变, 这和我们的解耦表示学习的初衷产生了背离. 所以结论就是在无监督条件下, 想要解耦表示是几乎不可能的.
注: 上面的(f)的构造不是唯一的;
注: 上面的证明用到了和顺序统计量一样的有趣的玩意.
作者做了很多很多实验, 个人觉得最能体现这一点就是, 所有这些强调解耦表示的VAE都对参数初始化和超参数选择异常敏感.