参考知乎的讨论:https://www.zhihu.com/question/29021768
1、计算简单,反向传播时涉及除法,sigmod求导要比Relu复杂;
2、对于深层网络,sigmod反向传播时,容易出现梯度消失的情况(在sigmod接近饱和区),造成信息丢失;
3、Relu会使一些输出为0,造成了网络的稀疏性,缓解过拟合。
droupout:防止过拟合
参考:http://www.cnblogs.com/tornadomeet/p/3258122.html
参考知乎的讨论:https://www.zhihu.com/question/29021768
1、计算简单,反向传播时涉及除法,sigmod求导要比Relu复杂;
2、对于深层网络,sigmod反向传播时,容易出现梯度消失的情况(在sigmod接近饱和区),造成信息丢失;
3、Relu会使一些输出为0,造成了网络的稀疏性,缓解过拟合。
droupout:防止过拟合
参考:http://www.cnblogs.com/tornadomeet/p/3258122.html