①relu角度
有点类似传统特征工程中,已有的特征在固定的模型下没有性能提升了,那就用更多的非线性变换对已有的特征去做变换,产生更多的特征的意味;
多出的relu对网络中层进一步压榨提炼特征。结合一开始单张 feature map 的 local 信息更多一些,还没来得及把信息分摊到 channel 级别上,那么往后就慢慢以增大 conv filter 的形式递增地扩大channel数,等到了网络的中层,channel数升得差不多了(信息分摊到channel上得差不多了),那么还想抽 local 的信息,就通过再加一个[conv-relu]的形式去压榨提炼特征。
②conv角度
多出的conv对网络中层进一步进行学习指导和控制不要将特征信息漂移到channel级别上。
上一点更多的是relu的带来的理解,那么多出的[conv-relu]中 conv 的意味就是模型更强的对数据分布学习过程的约束力/控制力,做到信息backprop可以回传回来的学习指导。本身多了relu特征变换就加剧(权力释放),那么再用一个 conv 去控制(权力回收),也在指导网络中层的收敛;
其实 conv 本身关注单张feature map上的局部信息,也是在尝试去尽量平衡已经失衡的channel 级别(depth)和local级别(width、height)之间的天平。这个conv控制着特征的信息量不要过于向着channel级别偏移。