https://zhuanlan.zhihu.com/p/23178423
从这个总结看的出来,用sgd时,是每个mini_batch更新一次dropout,并且前向和反向传播都是会在经过dropout处理后的神经元上进行。比如这一层有10个神经元,有5个神经元停止工作,那前向和反向都会在另外5个神经元上进行。
https://zhuanlan.zhihu.com/p/23178423
从这个总结看的出来,用sgd时,是每个mini_batch更新一次dropout,并且前向和反向传播都是会在经过dropout处理后的神经元上进行。比如这一层有10个神经元,有5个神经元停止工作,那前向和反向都会在另外5个神经元上进行。