2020-03-16 10:20:42
在Tensorflow中,为解决设定学习率(learning rate)问题,提供了指数衰减法来解决。
通过tf.train.exponential_decay函数实现指数衰减学习率。
学习率较大容易搜索震荡(在最优值附近徘徊),学习率较小则收敛速度较慢,
那么可以通过初始定义一个较大的学习率,通过设置decay_rate来缩小学习率,减少迭代次数。
tf.train.exponential_decay 就是用来实现这个功能。
那么可以通过初始定义一个较大的学习率,通过设置decay_rate来缩小学习率,减少迭代次数。
tf.train.exponential_decay 就是用来实现这个功能。
步骤:
- 首先使用较大学习率(目的:为快速得到一个比较优的解);
- 然后通过迭代逐步减小学习率(目的:为使模型在训练后期更加稳定);
定义:
tf.train.exponential_decay( learning_rate, global_step, decay_steps, decay_rate, staircase=True/False )
该函数的计算过程:
decayed_learning_rate = learning_rate * decay_rateglobal_step / decay_steps
参数设置:
- learning_rate = 学习速率
- decay_rate = 0.96 # 衰减速率,即每一次学习都衰减为原来的0.96
- 如果staircase=True,那么每decay_steps更新一次decay_rate,如果是False那么每一步都更新一次decay_rate。
- 如果staircase为True,那么每decay_steps改变一次learning_rate,
- 改变为learning_rate*(decay_rate^decay_steps)
- 如果为False则,每一步都改变,为learning_rate*decay_rate
- global_ = tf.placeholder(dtype=tf.int32)
代码演示:
import tensorflow as tf; import numpy as np; import matplotlib.pyplot as plt; learning_rate = 0.1 decay_rate = 0.96 global_steps = 1000 decay_steps = 100 global_ = tf.Variable(tf.constant(0)) c = tf.train.exponential_decay(learning_rate, global_, decay_steps, decay_rate, staircase=True) d = tf.train.exponential_decay(learning_rate, global_, decay_steps, decay_rate, staircase=False) T_C = [] F_D = [] with tf.Session() as sess: for i in range(global_steps): T_c = sess.run(c,feed_dict={global_: i}) T_C.append(T_c) F_d = sess.run(d,feed_dict={global_: i}) F_D.append(F_d) plt.figure(1) plt.plot(range(global_steps), F_D, 'r-') plt.plot(range(global_steps), T_C, 'b-') plt.show()
分析:
初始的学习速率是0.1,总的迭代次数是1000次,如果staircase=True,那就表明每decay_steps次计算学习速率变化,更新原始学习速率,如果是False,那就是每一步都更新学习速率。
红色表示staircase=False,绿色表示staircase=True。
结果: