【性能度量】
使用什么误差度量?
目标性能大致为多少?
【默认的基准模型】
首先尝试分段线性单元,ReLU以及扩展。
SGD一般是合理的选择,选加入动量的版本,衰减方法不一。
批标准化在优化出现问题时应该直接使用。
一开始就应该有一些温和的正则化
提前终止一般使用
Dropout比较容易实现,而且兼容大多模型。如果使用了批标准化,就不需要使用Dropout了。
【是否收集更多数据】
收集数据往往比改进学习算法要有用的多
怎么判断?
1、训练集上的性能是否可以接受? 如果不能,先增加网络层或者增加节点,调整学习率等超参数,如果效果不佳,可能是数据质量太差(噪声多或者错误多),需要重新收集数据,
2、如果训练集性能可接受,但测试集不可接受,一般收集更多数据是最有效的办法之一。如果不方便,降低模型大小或者改进正则化。
【手动选择超参数】
调整模型的有效容量
1、模型的表示容量
2、学习算法成功最小化的能力
3、正则化的程度
最重要的:学习率!
学习率比较低的时候,甚至可能永久停留在一个很高的训练误差
网格搜索!
【调试策略】