2.2复杂度和学习率
指数衰减学习率
可以先用较大的学习率,快速得到较优解,然后逐步减少学习率,使得模型在训练后期稳定
指数衰减学习率 = 初始学习率 * 学习率衰减率^(当前轮数/多少轮衰减一次)
空间复杂度:
层数 = 隐藏层的层数 + 1个输出层 (去掉输入层)
总参数 = 总w + 总b
0
0 0 0
0 0 0
0 0 0
0
例如上图 第一层:3x5+5 = 20 第二层5x3+3=18 总共38个
时间复杂度复杂度
乘加运算次数
左图 3X5 + 5x3 = 30
第一层 第二层