前向网络:无反馈 feedback 连接
【输出单元】
线性 -- 高斯分布 、
sigmoid单元 -- bernoulli输出、
softmax单元 -- multinoulli
【隐藏单元】
整流线型单元: relu,不可微,但是在梯度下降中的表现依然很好。原因是只要接近局部最小值即可,不需要达到。
优势:二阶导数几乎处处为0,也就是梯度更加有用!
缺陷:如果为0,那么就不能基于梯度的方法学习,因此需要拓展。
拓展:在小于0时使用一个非零的斜率:
绝对值整流:固定为1
渗透整流: Leaky ReLU 固定为一个类似0.01的小值
参数化整流:将其作为一个参数进行学习。2015年的paper.
sigmoid与tanh
广泛饱和性:z很大饱和到高值,z很小饱和到低值,z接近0才比较敏感。如果加入weight decay会比较好。
tanh通常比sigmoid要好:在0附近,tanh和单位函数比较像,因此只要不饱和,训练tanh更加容易。
线性隐藏单元:
单位函数作为激活函数,如果n到p的网络线性相关,秩为q,那么可以用一个q个节点的线性层来实现,可以有效的减少网络的参数。
其他隐藏单元:
径向基函数:x在某个值表现更活跃,
softplus:平滑版的ReLU,但是通常表现并没有ReLU好,比较反直觉
硬双曲正切:max(-1, min(1, a)),
【架构设计】
万能近似定理:只要一层就能以任意精度近似有限维Borel可测函数
学习失败的原因:
优化算法找不到最优,
过拟合
有一些临界值d,在大于d时能高效的近似,但是小于d时需要一个远远更大的模型。
对ReLU来说,一个深度网络可能需要指数级的浅层网络的参数
对于一个卷积的例子,增加网络参数但是不增加层数,事实证明是没有什么用的。
【历史总结】
神经网络在很小的时候 sigmoid显著比ReLU更好,
对于小的数据集,线性整流甚至比学习隐层权重更重要。