证明了distortion和perceptual quality之间是矛盾的,并且存在一条tradeoff曲线。所有图像复原类任务的表现只能逼近这个曲线。
distortion:指的是重建图像$widehat{x}$与原图像$x$之间的不相似度
perceptual quality:仅指$widehat{x}$的图像质量,与原图像无关。或者说是指$widehat{x}$与真实图像的相似程度,实际上是与重建图像的分布和真实图像的分布的距离有关。
目前比较常用的衡量方法:在衡量distortion中使用的是full-reference方法,比如MSE, SSIM, MS-SSIM, IFC, VIF, VSNR, FSIM等;在percepual quality方面有human opinion score, no-reference方法(DIIVINE, BRISQUE, BLIINDS-II, NIQE), GAN-based。
作者证明了perception和distortion之间存在下面这样的一条曲线,并且左下角的区域是任何算法都无法达到的。一些一味注重优化distortion的算法可能既不有效又损害视觉质量(在曲线的右上方区域),说明了GAN方法的有效性(去逼近这个bound)。对于不同的领域应该有不同的侧重点,比如对于医学领域可能会更注重distortion accuracy,即与原图像的接近程度。这个图像也指导给出了一个新的衡量算法的方法,将算法的表现绘制到该坐标轴上(同时考虑perceptual quality和distortion)
问题定义:
文章首先证明了最小化平均distortion并不一定会导致a low perceptual quality index。作者首先以MSE和MAP为例,说明了使用这两种方式进行复原的图像分布不一定等于原分布。虽然MAP在某些条件下$p_widehat{x}=p_x$成立,但我们需要的是一个stable distribution peserving distortion measure, 即对每一个$p_{x, y}$都成立。作者证明了这样的衡量标准是不存在的, 并在附录中给出了相关证明。
由于这样的stably distribution preserving的衡量方法并不存在,因此low distortion不一定会导致好的perception quality。那么我们可以找到在某一个distortion level下的最佳perceptual quality吗?
这样的任务可以被定义为:$P(D)=min_{p_{widehat{x}|y}}d(p_x, p_widehat{x}), s.t. E[ riangle(x, widehat{x})]leq D$。作者以选择了distortion为MSE, $d(cdot, cdot)$为KL divergence为例子,进行了实验,绘制除了下面这样的曲线。在这个曲线中,$D$增大, $P(D)$减小。曲线为convex并且对于更大的噪声现象更严重。
作者指出虽然这个任务很难进行分析,但上面例子的现象普遍存在,并在附录中给出了一定的证明。并且不是所有的distortion measure都有相同的tradeoff function。对于一些捕捉了图像间语义关系的衡量方法,这个现象是less severe的。
定理:如果$d(p, q)$对于他的第二个参数是convex的(对任意的$p, q_1, q_2, lambdain[0, 1]$有$d(p, lambda q_1+(1-lambda)q_2)leqlambda d(p, q_1)+(1-lambda)d(p, q_2)$), 那么$P(D)$是monotonically non-increasing且convex的。这条定理中的假设$d(p, q)$是convex的条件并不是非常严苛,即使没有这个条件$P(D)$也是monotonically non-increasing的。
那么如何可以使一个算法逼近这个界限呢?
我们定义图像复原任务中可以达到的最小的distortion为$D_{min}=min_{p_{widehat{X}|Y}}E[ riangle(X, widehat{X})]$,此时的estimator一般都是非distribution preserving的。于是作者考虑当estimator有最佳的视觉质量时可以达到的最小的distortion,将其定义为$D_{max}=min_{p_{widehat{X}|Y}}E[ riangle(X, widehat{X})] s.t. p_{widehat{X}}=p_X$作者证明,存在下面一条定理:
对于MSE$ riangle(X, widehat{X})=||widehat{X}-X||^2$, $D_{max}leq2D_{min}$。也就是说对于MSE来说,最多只需要牺牲3dB的PSNR来达到最佳的视觉效果。
实际上使用GAN方法就是一个systematic way来设计estimator逼近这个界限。如果将GAN中生成器的loss改为$l_{gen}=l_{distortion}+lambda l_{adv}$.由于$l_{adv}$是与$d(p_x, p_{widehat{x}})$成比例的, 所以实际上$l_{gen}approx E[ riangle(x, widehat{x})]+lambda d(p_x, p_{widehat{x}})$.将$lambda$视为拉格朗日算子,那么最小化$l_{gen}$就相当于最小化了$D$,调整$lambda$也调整了$D$,从而是在perception-distortion曲线上产生estimator。
基于以上的发现,作者提出评价一个图像复原算法的新的标准,也就是考虑算法在perception-distortion曲线中的位置。当算法A比算法B有更好的视觉质量且更少的distortion时,称算法A dominate B。当一组算法中没有算法dominate算法A时,称A为这组算法中可接受的算法。
作者在实验中选择了no-reference的方法NIQE来衡量图像的视觉质量,考虑了五种FR metrics来评价distortion(RMSE, SSIM, MS-SSIM, IFC, VIF),再加上一个$VGG_{2,2}$将一些目前SR领域常用的算法绘制到perception-distortion plane上。结果如下:
得到了以下一些结论:
- 左下角都是不可达的
- 在接近左下角不可达的区域,NR和FR metrics都是anti-correlated的,这表明了perception和distortion之间存在一个tradeoff。这个tradeoff即使在一些能捕捉视觉质量的评价标准中也存在。
- 通过计算FR和NR与human opinion score的相关性。FR在远离不可达区域时与视觉质量有较好的相关性, NR方法则总是有较好的相关性。SRGAN在perceptual quality方面是最好的。
作者认为,在图像复原类算法中都应该同时用一对FR和NR方法,既保证perceptual quality又保证distortion。