• ReLU 和sigmoid 函数对比



    详细对比请查看:http://www.zhihu.com/question/29021768/answer/43517930


    . 激活函数的作用:

    是为了增加神经网络模型的非线性。否则你想想,没有激活函数的每层都相当于矩阵相乘。就算你叠加了若干层之后,无非还是个矩阵相乘罢了。所以你没有非线性结构的话,根本就算不上什么神经网络。

    2. 为什么ReLU效果好:

    重点关注这章6.6节:Piecewise Linear Hidden Units


    总结如下:
    发现ReLU效果显著的论文:

    Jarrett, K., Kavukcuoglu, K., Ranzato, M., and LeCun, Y. (2009a). What is the best multi-stage architecture for object recognition?



    发现ReLU更容易学习优化。因为其分段线性性质,导致其前传,后传,求导都是分段线性。而传统的sigmoid函数,由于两端饱和,在传播过程中容易丢弃信息:

    Glorot, X., Bordes, A., and Bengio, Y. (2011b). Deep sparse rectifier neural networks. In JMLR W&CP: Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (AISTATS 2011). 130, 297


    缺点是不能用Gradient-Based方法。同时如果de-active了,容易无法再次active。不过有办法解决,使用maxout激活函数:

    Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., and Bengio, Y. (2013a). Maxout networks. In S. Dasgupta and D. McAllester, editors, ICML’13, pages 1319–1327. 130, 152, 243


    除了帮助传播信息,便于优化的优点以外,分段线性函数可以让regularize变得更加容易。

  • 相关阅读:
    css--一些基本属性
    python网络编程--TCP连接的三次握手(三报文握手)与四次挥手
    python--基础数据类型 set集合
    图片
    python--变量,常量,用户交互
    前端基础--css基本语法,选择器
    Python----一些面试题
    HTML--基本标签
    集合类型
    字典类型
  • 原文地址:https://www.cnblogs.com/alexanderkun/p/5701694.html
Copyright © 2020-2023  润新知