Learning in the Frequency Domain 解读

论文：Learning in the Frequency Domain， CVPR 2020

实际的图像尺寸比较大，无法直接输入到CNN处理。因此，各类CNN模型都把图像首先下采样的224x224，然后再处理。但是，这样会引起信息损失并影响准确率。因此，阿里巴巴的研究人员提出新的方法，把RGB图像变换到DCT频率域，而不是直接下采样。该模型不需要改变现有网络结构，因此可以应用于任何CNN网络。

该方法总体思路：高分辨率RGB图像首先转换到YCbCr颜色空间，然后转换为DCT频域。这样就产生多个通道。某些通道对于分类识别的影响较大，因此，只保留重要的通道输入到CNN处理即可。

具体来说，将图像按8x8分块，在Y通道每个块会得到64个DCT信号，对应64个不同的频率分量。对于尺寸为W x H的原始图像, 会有W/8 x H/8 个块。每个块中相同位置的频率分量可以组成一个尺寸为W/8 x H/8 的feature map，这样会产生8x8=64个feature map。对于Cb和Cr通道，也可以各自产生64个feature map。总共产生了64x3=192个feature map。假设W=H=448, 那么现有的基于频域的feature map的尺寸为56x56x192。

对于ResNet-50，输入为224x224，经过一次卷积和pooling后， feature map 尺寸为 56x56。这样我们可以把 56x56x192 的 feature map 放在这里即可。

时间有限，没有仔细阅读代码，有时间补上代码的解析。

相关阅读:
计算机硬件内存双通道只显示一根内存条，不能组成双通道
VMware 虚拟机安装win10操作系统系列问题解决
编译语言和解释语言区别
SPSS 24下载与安装+授权码
Reg文件操作
DLL注册表文件相关内容
安装TensorFlow失败
Anaconda 包管理与环境管理
Cookie设置域名问题，cookie跨域
准备篇（二）C语言

原文地址：https://www.cnblogs.com/gaopursuit/p/12552257.html