1. P103:激活函数总结(激活函数更像是“斩波器”)
1)Tanh:特征相差明显时,效果好
2)Sigmoid:特征的相差不是特别大时,Sigmoid效果好
3)ReLU:用ReLU处理后的数据有更好的稀疏性,可以用大多数是0的系数矩阵实现
4)Softmax是Sigmoid激活函数的扩展
2. P106:Loss函数
1)Sigmoid激活函数取得的预测值hat{y}范围在0~1之间,那么真实值(Label)也要归一化
2)交叉熵值越小,代表预测越准确
3)注意:任意无界值使用均值平方差(MSE),位矢量(分类标准)使用交叉熵
4)每种激活函数都有与之对应的交叉熵:Sigmoid --> Sigmoid交叉熵,softmax --> softmax交叉熵……
5)(P109):无需将softmax_cross_entropy_with_logits的logits进行softmax化
3. P112:梯度向下
1)批量梯度下降:要把所有样本看一遍,计算速度慢
2)随机梯度下降:速度快,收敛效果不好,震荡厉害
3)小批量梯度下降:按批量更新参数
4. P113:退化学习率
1)学习率大:速度提升,精度不够
2)学习率小:精度提升,速度太慢
3)推荐方法:学习率衰减
5. P116:maxout
1)找到隐藏层输出最大的那个,代表特征响应最敏感
6. P129:非线性问题
1)非线性问题:无法使用直线将其分开,因此非线性问题需要用多层神经元网络
2)多层(隐藏层):可以使很多层,也可以一层很多个神经元
3)理论上:层数或节点增多,效果更好
4)实际上:并不是这样的
7. P141:欠拟合与过拟合
1)欠拟合:结果不理想时,可以增加节点或层
2)过拟合:避免方法有early stopping,数据集扩增,正则化,dropout
3)欠拟合时,希望正则化对误差的影响越小越好
4)过拟合时,希望正则化对误差的影响越大越好
第七章总结:
1)隐藏层(1层):神经元个数多,导致泛化能力差
2)倾向:更深的模型