ResNet:
(1) 152层网络,ILSVRC2015比赛第一名
(2) Highway Network:
- 神经网络的深度对其性能非常重要,但是网络越深训练难度越大,Highway NetWork允许的目标就是解决极深的神经网络难以训练的问题。
- Highway Network相当于修改了每一层的激活函数,此前的激活函数只是对输入做一个非线性变换,该网络则允许保留一定比例的原始输入x。
- 因此前面一层的信息,有一定比例可以不经过矩阵乘法和非线性变换,直接传输到下一层,仿佛一条信息高速公路,因此叫Highway Network。
- Highway Network主要通过gating units学习如何控制网络中的信息流,即学习原始信息应保留的比例。借鉴了早期LSTM中的gating。
- Highway Network的设计在理论上允许其训练任意深的网络,其优化方法基本上与网络的深度独立,而传统的神经网络结构则对深度非常敏感,训练复杂度随深度增加而急剧增加。
(3) ResNet灵感:
- 在不断加深神经网络时,会出现一个Degradation的问题,即准确率会上升然后达到饱和,再持续增加深度则会导致准确率下降。
- 这并不是过拟合,因为不光在测试集上误差增大,训练集本身误差也会增大。
- 假设有一个比较浅的网络达到了饱和的准确率,那么后面再加上几个y=x的全等映射层,起码误差不会增加,即更深的网络不应该带来训练集上误差上升。
(4)残差学习单元:
- F(x)=H(x)-x
(5)解决的问题:
- 传统的卷积层或全连接层在信息传递时,存在信息丢失、损耗。
- ResNet在某种程度上解决了这个问题,直接将输入信息绕道传到输出,保护信息的完整性,整个网络则只需要学习输入和输出的差别的那个部分,简化学习目标和难度。
(6) ResNet V2
- 前馈和反馈信号可以直接传输,skip connection的非线性激活函数(如ReLU)替换为Identity Mappings(y=x)
- ResNet V2在每一层中都使用了Batch Normalization,残差学习单元更容易训练且泛化性更强。
(7) others
- ResNet类似没有gates的LSTM,即将输入x传递到后面的过程是一直发生的,而不是学习出来的。
- 论文The power of depth for feedforward neural networks从理论上证明加深网络比加宽网络更有效。
参考资料:
《TensorFlow实战》黄文坚 唐源 著