CNN中dropout层的理解

CNN中dropout层的理解

　　dropout是在训练神经网络模型时，样本数据过少，防止过拟合而采用的trick。那它是怎么做到防止过拟合的呢？

　　首先，想象我们现在只训练一个特定的网络，当迭代次数增多的时候，可能出现网络对训练集拟合的很好（在训练集上loss很小），但是对验证集的拟合程度很差的情况。所以，我们有了这样的想法：可不可以让每次跌代随机的去更新网络参数（weights），引入这样的随机性就可以增加网络generalize 的能力。所以就有了dropout 。

　　在训练的时候，我们只需要按一定的概率（retaining probability）p 来对weight layer 的参数进行随机采样，将这个子网络作为此次更新的目标网络。可以想象，如果整个网络有n个参数，那么我们可用的子网络个数为 2^n 。并且，当n很大时，每次迭代更新使用的子网络基本上不会重复，从而避免了某一个网络被过分的拟合到训练集上。

　　那么测试的时候怎么办呢？一种最naive的方法是，我们把 2^n 个子网络都用来做测试，然后以某种 voting 机制将所有结果结合一下（比如说平均一下下），然后得到最终的结果。但是，由于n实在是太大了，这种方法实际中完全不可行！所以有人提出，那我做一个大致的估计不就得了，我从2^n个网络中随机选取 m 个网络做测试，最后在用某种voting 机制得到最终的预测结果。这种想法当然可行，当m很大时但又远小于2^n时，能够很好的逼近原2^n个网络结合起来的预测结果。但是，有没有更好的办法呢？ of course！那就是dropout 自带的功能，能够通过一次测试得到逼近于原2^n个网络组合起来的预测能力！

　　虽然训练的时候我们使用了dropout，但是在测试时，我们不使用dropout （不对网络的参数做任何丢弃，这时dropout layer相当于进来什么就输出什么）。然后，把测试时dropout layer的输出乘以训练时使用的retaining probability p （这时dropout layer相当于把进来的东东乘以p）。仔细想想这里面的意义在哪里呢？？？事实上，由于我们在测试时不做任何的参数丢弃，如上面所说，dropout layer 把进来的东西原样输出，导致在统计意义下，测试时每层 dropout layer的输出比训练时的输出多加了【（1 - p）*100】% units 的输出。即【p*100】% 个units 的和是同训练时随机采样得到的子网络的输出一致，另【（1 - p）*100】% 的units的和是本来应该扔掉但是又在测试阶段被保留下来的。所以，为了使得dropout layer 下一层的输入和训练时具有相同的“意义”和“数量级”，我们要对测试时的伪dropout layer的输出（即下层的输入）做 rescale：乘以一个p，表示最后的sum中只有这么大的概率，或者这么多的部分被保留。这样以来，只要一次测试，将原2^n个子网络的参数全部考虑进来了，并且最后的 rescale 保证了后面一层的输入仍然符合相应的物理意义和数量级。

　　假设x是dropout layer的输入，y是dropout layer的输出，W是上一层的所有weight parameters， $W|_{p}$ 是以retaining probability 为p 采样得到的weight parameter子集。把上面的东西用公式表示（忽略bias）：

　　　　train： $y=W|_{p}*x$

　　　　test: $y=W*px$

　　

　　但是一般写程序的时候，我们想直接在test时用 $y=W'*x$ ，这种表达式。（where $W'=W\cdot p$ ）因此我们就在训练的时候就直接训练 $W'$ 。所以训练时，第一个公式修正为 $y=\frac{W'|_{p}}{p}*x=W'|_{p}*\frac{x}{p}$ 。即把dropout的输入乘以p 再进行训练，这样得到的训练得到的weight 参数就是 $W'$ ，测试的时候除了不使用dropout外，不需要再做任何rescale。Caffe 和Lasagne 里面的代码就是这样写的。

转自http://blog.csdn.net/u012702874/article/details/45030991

幸运之神的降临，往往只是因为你多看了一眼，多想了一下，多走了一步。
相关阅读:
当下流行的分布式文件系统大阅兵
 smb相关资料
 Linux下将多个静态库(.a)合并成一个静态库文件(.a)的命令操作，方法一
 IBInspectable的使用
 iOS开发拓展篇——如何把项目托管到GitHub
iOS开发拓展篇-XMPP简单介绍
 iOS开发拓展篇—应用之间的跳转和数据传递
 使用NSURLSession获取网络数据和下载文件
 李洪强实现横向滚动的View<二>
李洪强实现横向滚动的View<一>
原文地址：https://www.cnblogs.com/strongYaYa/p/5871410.html