(本文是根据 neuralnetworksanddeeplearning 这本书的第三章Improving the way neural networks learn整理而成的读书笔记,根据个人口味做了删减)
上一章,我们介绍了神经网络容易出现的过拟合问题,并学习了最常用的正则化方法,以及其他一些技巧,今天,我们将介绍本章节最后两个问题:权重初始化和超参数的选择
权重初始化
到目前为止,我们都是用归一化高斯分布来初始化权值,但是,我们很想知道是否有其他初始化方法可以让网络训练得更好。
事实上,确实存在比高斯分布更好的方法。不过,我们需要先了解高斯分布的初始化会存在哪些缺陷。
假设我们有如下的网络结构,其中包含 1000 个输入神经元:
现在,我们聚焦于隐藏层第一个神经元。假设输入中,有一半的神经元是 0,一半的神经元是 1。输入到隐藏层的权重和为 (z=sum_j{w_j x_j}+b)。由于有一半的 (x_j=0),所以 (z) 相当于是 501 个归一化的高斯分布随机变量的和。因此,(z) 本身也是一个高斯分布,其均值为 0,标准差为 (sqrt{501} approx 22.4)。这是一个很「宽」的分布:
也就是说,大部分情况下 (z gg 1) 或者 (z ll 1)。对于采用 sigmoid 函数的 (sigma(z)) 来说,这就意味着隐藏层可能已经收敛了(所谓收敛,就是训练开始变缓或停止了,而导致收敛的原因在于,偏导中的 (sigma'(z)) 在 (|z|>1) 时趋于 0,这样梯度下降就没法更新参数了)。之前我们用交叉熵函数解决了输出层中学习率低的问题,但对于中间的隐藏层并没有作用。而且,前一层隐藏层的输出如果也成高斯分布,那么再往后的隐藏层也会收敛。
改善这种问题的措施也很简单,既然问题根源在于高斯分布太「宽」,那么我们就想办法让它变「窄」,也就是标准差要变小。假设一个神经元有 (n_{in}) 个输入权值,那么我们只需要将所有权值按照均值为 0,标准差为 (1/sqrt{n_{in}}) 的高斯分布初始化即可。这样得到的新的高斯分布就会「瘦高」得多。对于之前的例子,在 500 个输入为 0,500 个为 1 的情况下,新高斯分布的均值为 0,标准差为 (sqrt{3/2}=1.22…),如下图所示:
这样一来,(z) 的值普遍在 ([0, 1]) 内,隐藏层过早收敛的情况也就有所缓解了。
我们再通过一组实验来看看不同初始化方法的效果:
其中,橙线是用上面提及的新的高斯分布初始化,而蓝线则是一般的高斯分布。从结果来看,新的初始化方法可以加速网络的训练,但最终的准确率两者相当。不过在某些情况下,(1/sqrt{n_{in}}) 的初始化方式会提高准确率,在下一章中,我们将看到类似的例子。
要注意的一点是,以上的初始化都是针对权值 weight 的,对偏差 bias 的初始化不影响网络的训练(原因暂时没想明白)。
如何选择超参数
到目前为止,我们都没有仔细讨论超参数该如何选择(如学习率 (eta),正则化参数 (lambda) 等等)。超参数的选择对网络的训练和性能都会产生影响。由于神经网络的复杂性,一旦网络出现问题,我们将很难定位问题的根源,搞不清楚到底是网络结构有问题,还是数据集有问题,还是超参数本身没选好。因此,这一节我们将学习一些选择超参数的「灵感」或者「准则」,减少在超参数选择上的失误。
宽泛的策略
之所以称之为宽泛,是因为这种策略不告诉如何调整超参数,而是让你尽可能快地得到反馈。只有尽快把握网络的学习情况,我们才有耐心和信息继续 debug(总不能每调整一次要等个十来分钟才出结果吧)。我自己在 debug 网络的时候也经常采用这些做法,比如,只用很小的数据集训练,或者将网络的结构变小等等。这些做法只有一个目的:让网络尽可能快地反馈结果,不管结果好坏,这是我们能继续调试下去的前提。在反复调试后,我们往往能得到一些「灵感」,之后再慢慢将问题变的更复杂一些,然后继续调试。
好了,下面我们针对学习率 (eta)、L2 正则化参数 (lambda) 和批训练的数据集大小学习一些比较有效的准则。
学习率
关于学习率的选择,Andrew Ng 在他的 Machine Learning 课程中有过详细的讲解。这里面最重要的是要避免学习率过大给梯度下降带来「抖动」的问题,如下图中的橙线所示。在设置学习率时,我们可以先设置一个小一点的数值,如 0.1,如果这个数值太大,则调低一个数量级到 0.01,甚至 0.001...如果发现学习过程中代价函数没有出现「抖动」的情况,再适当提高学习率,如由原来的 0.1 提高到 0.2、0.5...但最终不能超过造成「抖动」的阈值。
early stopping 选择训练轮数
在神经网络中,并不是训练得越多越好,之前已经提到过,训练太多轮可能导致过拟合。因此,我们要采取尽可能合适的训练轮数。early stopping 的具体做法是:在每一轮训练后观察验证集上的准确率,当验证集准确率不再上升时,就停止训练。这里的准确率不再上升指的是,在连续几轮(比如 10 轮)的训练后,准确率都不再有新的突破,始终维持在一个稳定的数值。
调整学习率
前面说过,学习率过大可能导致梯度下降出现「抖动」,过小又会导致网络训练太慢。在实际过程中,我们常常会遇到这样的问题:当网络开始训练时,由于 weights 不够好,这个时候加大学习率可以快速改善网络;当网络训练一段时间后,梯度下降开始到达最低点,这个时候小一点的学习率可以防治其越过最低点而出现「抖动」。因此,在训练过程中,更好的方法不是固定一个学习率,而是根据验证集上的准确率情况,逐步调整学习率(比如一开始设为 0.1,当准确率上升到 80% 后,调低到 0.01,上升到 90% 后,再继续调低,直到学习率只有初始值的千分之一为止)。
正则化参数
刚开始训练时,最好将正则化参数 (lambda) 设为 0.0,等学习率确定并且网络可以正常训练后,再设置 (lambda)。具体该设置为什么,没有通用的准则,只能根据实际情况判断,可以是 1.0,或者 0.1,或者 10.0。总之,要根据验证集上的准确率来判断。
批训练的数据集大小
理论上,我们完全可以在每次训练时只用一个样本,但这样会导致训练过程相当漫长,而多个样本进行批训练,在当今计算机的快速矩阵运算下并不比单个样本慢,这样相当于同时训练多个样本的时间和单个样本一样(当然,将所有样本都用于训练还是会影响速度,所以才会采用随机梯度训练的批样本)。另外,个人认为,综合多个样本再取均值进行训练,可以抵消部分噪音样本的影响。