2012年的一篇文章,是NIQE评价指标的基础。在此之前NR IQA都是针对某个distortion的,需要预先知道对应的distortion。作者提出的BRISQUE(blind/referenceless image spatial quality evaluator)使用locally normalized luminance coefficients来衡量图片的“不自然”程度。不同于之前的NR IQA方法,他不需要转移到其他的坐标下,计算复杂度也低。
这个方法基于一个统计学上的发现。自然图像的归一化亮度值表现出很强的unit normal Gaussian的特性。
之所以使用归一化的亮度系数,是为了减小区域所产生的相关性,使其对于纹理没有很强的依赖性。文中将使用的亮度系数称为MSCN, mean subtracted contrast normalized coefficient:$widehat{I}(i, j) = frac{I(i, j)-mu(i, j)}{sigma(i, j)+C}, C=1$。其中$mu(i,j)=sum_{k=-K}^{K}sum_{l=-L}^{L}w_{k,l}I_{k,l}(i,j), sigma(i,j)=sqrt{sum_{k=-K}^{K}sum_{l=-L}^{L}w_{k,l}(I_{k,l}(i,j)-mu(i,j))^2}$
作者选取了一张自然图像对几个统计量进行可视化,可以看到MSCN表现出的是非常均匀的low-energy residual object boundaries。
作者认为MSCN系数刻画了由于distortion的存在而发生变化的statistical属性,不同的distortion会产生的变化不同,通过测量这些变化可以预测图像受到的distortion以及他的视觉质量。
一个generalized Gaussian distribution(GGD)可以有效捕捉a broader spectrum of distorted image statistics。GGD可以表示为:
$f(x;alpha, sigma^2)=frac{alpha}{2etaGamma(1/alpha)}exp(-(frac{|x|}{eta})^alpha), eta=sigmasqrt{frac{Gamma(1/alpha)}{Gamma(3/alpha)}}, Gamma(a)=int_0^infty t^{a-1}e^{-t}dt,a>0$
参数$alpha$控制分布的形状,$sigma^2$空智了variance。由于MSCN系数分布是对称的,所以选择了zero mean distribution。这两个参数通过"Estimation of shape parameter for generalized Gaussian distributions in subband decompositions of video"中提出的moment-matching based 方法进行估计,可以作为图片的第一组特征。
作者选取了Berkeley image segmentation database中的pristine image,并引入JPEG2000, JPEG, white noise, Gaussian blur和fast fading channel errors at varying degrees of severity五种distortion,幸成distorted image set。对这些图片估计他们的($alpha, sigma^2$), 绘制图像,可以发现不同的distortion呈现了不同的空间分布,其中white noise明显远离其他。
此外,作者还发现相邻像素之间的statistical关系也在一定程度上受到distortion的影响,因此对水平、垂直、两个对角线共四个方向的MSCN乘积进行建模。他们满足一个非对称的概率密度函数,但由于这个函数只有一个参数,不能为失真图像提供一个笔记号的fit,并且不是finite at the origin。因此实际使用时使用一个general asymmetric generalized Gaussian分布(AGGD)近似代替。AGGD的参数($ u, sigma_l^2, sigma_r^2$)可以通过"Multiscaled skewed heavy tailed model for texture anlysis"中提出的moment-matching based方法进行估计。最佳的AGGD fit的参数($eta, u, sigma_l^2, sigma_r^2$)当$eta=(eta_reta_l)frac{Gamma(frac{2}{ u})}{Gamma(frac{1}{ u})}$时取得。
因此,对于每一个方向$H, V, D_1, D_2$都要估计4个参数,共16个参数。这作为图片的第二组特征。
有研究表明,QA算法中考虑多尺度信息有利于提升与human perception 的关联性。因此在BRISQUE中最终选择原始图片和低分辨率图片(low pass filtered并2倍下采样,发现超过2倍没有效果提升),每张图片提取18个特征,共36个特征。
使用这些特征对图片质量进行评估时,需要使用一个regression module学习从特征空间到质量分的一个映射(任何regressor都可以),文中使用的时SVM regressor(SVR)。
实验
使用LIVE IQA数据集,其中包含29张reference图片和779张失真图像。包含了5中distortion:JPEG2000, JPEG, WN, Blur, FF。由于BRISQUE中的regressor需要训练,因此将数据集分为了80%用于训练,20%用于测试。随机重复1000次。
- 用SROCC和LCC计算各评价标准与DMOS的相关性。
- 测试了window size 对BRISQUE Mean SROCC的影响。
相对来说表现hi笔记稳定的,但当window size过大时会由于计算不再是local的而使表现下降。
- 虽然不同算法间的median correlations存在差异,但他们可能不是statistically relevant的。因此通过在SROCC值上进行t-test衡量算法之间的statistical significance。
BRISQUE仅仅劣于MSSSIM
- 用BRISQUE提取的特征训练分类器,说明这些特征可以用来对不同类型的distortion进行分类,并绘制了混淆矩阵。其中FF和JPEG2K,JPEG和JPEG2K是比较容易混淆的。
- 尝试将BRISQUE中特征直接映射到质量的部分替换为two-stage的。特征先映射到distortion再对应到distortion-specific QA。发现表现略微下降,可能原因是第一步中的imperfect distortion classification造成的。
- 作者说明了BRISQUE的表现不会受限于某个数据集。先将BRISQUE在整个LIVE IQA数据集上训练,再应用于TID2008.TID2008中包含了17种distortion,只选择训练过的5种。
- Computational Complexity。每个图片只需要估计5次参数,因此BRISQUE非常高效。作者比较了几个方法的计算时间。
作者还将BRISQUE应用于Blind Image Denoising方法。用这些统计量估计噪声参数。具体训练方法是:首先使用受不同的noise variance影响的图片作为BS3D算法的输入,用MSSSIM评估BM3D得到的denoise图像的质量,并找到质量最佳的图片所对应的noise参数。将这些noise variance用于训练BRISQUE特征到这些noise-prediction parameter的映射。在测试时就可以预测level of input noise of BM3D来保证output有最佳的视觉质量。这样得到的结果要好于BM3D baseline。