1. 30卷积+20卷积+20卷积+10全连接 < 20卷积+20卷积+30卷积+10全连接 参数个数,因为后面全连接是相乘的关系,前面是相加的关系
2. BN层在LOSS 不怎么下降时可以起到奇效
3. 随着网络的加深,会出现梯度消失的情况,这就是不一定越深越好,这个时候可以用RESNET,RESnet 为什么好呢?
http://blog.csdn.net/wspba/article/details/56019373
1.即增加一个identity mapping(恒等映射),将原始所需要学的函数H(x)转换成F(x)+x,而作者认为这两种表达的效果相同,但是优化的难度却并不相同,作者假设F(x)的优化 会比H(x)简单的多。这一想法也是源于图像处理中的残差向量编码,通过一个reformulation,将一个问题分解成多个尺度直接的残差问题,能够很好的起到优化训练的效果。
2.
.
4.借鉴Metric-learning 可以看到,有时候改loss 可以再一个batch-size ,对不同的类别进行操作