本文完全为个人心得体会,只做记录用,欢迎交流
替换全连接层为卷积层
以alexnet为例,替换了最后三层fc为卷积层,得到的是通道数很大(4096)而长宽很小的输出,其实我不太能理解这里的创新点,或许就算根本不用这三个卷积层,直接进行后面的upsampleing,原理上没区别,最多是效果差一些。深度之后再经过一次卷积变为预测深度21。
上采样(deconv)
其实就是反向卷积,小图边大图。
分层保留特征
这里比较有意思,作者将pool3 pool4后得到的特征图都保留了下来,用于和上采样后的输出结合来补充细节。
简单的理解来说,小而深的输出适用于分类,这也是conv有效的原因,其相对不关注细节,而关注怎么抽象匹配图像,偏大的输出对于图像细节补充较好,可以用来反向补充得到的语义分割结果,更精确。
后续改进
看到有用dilated conv扩大感受域的操作,实验上显示比conv+pool好,没看论文了解不多。
还有用条件随机场来优化输出的,我觉得这个想法蛮不错的,相当于增加先验规则,挺有趣的,能补充神经网络本身的不足。