SGD局部最小值的缺点
SGD容易陷入局部最小值,不能跳出来,这样loss就不会降低 因此我们每隔一定的epoch,就将SGD重启一下,帮助它跳出这个局部最小值
余弦退火优化器 Cosine Annealing