1. 使用caffe训练网络时,如果使用到batch normalization层, 要注意 use_global_status参数,最好从prototxt文件中移走这个参数。
2. 初始化方式比较重要,尤其是最后若干层,因为它们会影响loss的范围, 而loss又会通过学习率影响参数的更新。如果目标输出范围在[0,1], 那么weight filler 设置为{ guassian, std=0.001}, 可能要好于 xavier.
1. 使用caffe训练网络时,如果使用到batch normalization层, 要注意 use_global_status参数,最好从prototxt文件中移走这个参数。
2. 初始化方式比较重要,尤其是最后若干层,因为它们会影响loss的范围, 而loss又会通过学习率影响参数的更新。如果目标输出范围在[0,1], 那么weight filler 设置为{ guassian, std=0.001}, 可能要好于 xavier.