梯度爆炸和梯度消失:
W[i] > 1:梯度爆炸(呈指数级增长)
W[i] < 1:梯度消失(呈指数级衰减) *.注意此时的1指单位矩阵,W也是系数矩阵
初始化权重:
np.random.randn(shape)* np.sqrt(2/n[l-1])
Relu:np.sqrt(2/n[l-1])
Tanh:np.sqrt(1/n[l-1])
其他的做法:np.sqrt(2/n[l-1]+n[l])
梯度的数值逼近:
使用双边误差逼近比单边误差逼近更准确
f(θ+ε) - f(θ-ε) / 2ε 比 f(θ+ε) - f(θ) / ε更准确
梯度检验:
一种debug方式、不能和dropout方法共同运行