【CVPR2020】Wavelet Integrated CNNs for NoiseRobust Image Classification

深度学习中的下采样（max-pooing, average-pooling, strided-convolution）通常会有两个不足：破坏了目标的基本结构、放大随机噪声。上采样操作同样容易受到影响。下面给出一个图示，A和B是两个区域，AP是max-pooling的结果，AW是小波处理的结果，可以看到max-pooling导致了结构的损失。而离散小波变换的处理结果要好很多，窗户的边缘和柱子的形状仍然保持的非常好。

离散小波变换可以把图像分解为一个低频分量\(X_{ll}\)，和三个高频分量\(X_{hl}, X_{lh}, X_{hh}\)，三个高频成分保持了图像的细节信息，如果图像的噪声，噪声也是高频信息，保留在高频分量里面。各个分量如下图所示：

在网络中，作者主要使用了三种操作替换，MaxPool 和 AvgPool 用 DWT\(_{ll}\) 替换，步长为2有卷积用步长为1的 DWT\(_{ll}\) 替换。下图所示：

在实验中，作者在ImageNet数据集上测试了三种小波，包括Haar小波，Cohen小波，Daubechies小波，可以看到Haar和Cohen可以提高分类的性能。Daubechies是一种非对称的小波，有时候会降低分类的性能。

同时，从loss上可以看出，加入小波以后，可以加速网络的训练。

下图是一个可视化的结果，每个子图的第一行是原网络的feature map，第二行是加入小波以后输出的feature map。从图中可以看出，原来的CNN网络输出的 feature map，背景含的噪声更多一些，目标结构被破坏的比较严重。加入小波以后，背景噪声明显被抵制，同时目标的结构更加完整。

相关阅读:
PAT 1018. 锤子剪刀布
PAT 1017. A除以B
PAT 1016. 部分A+B
PAT 1015. 德才论
PAT 1014. 福尔摩斯的约会
PAT 1013. 数素数
PAT 1012. 数字分类
PAT 1011. A+B和C
292. Nim Game
412. Fizz Buzz

原文地址：https://www.cnblogs.com/gaopursuit/p/12957324.html