【杂】为什么代价函数用J符号+矩阵其他形式+学习率设置

【杂】为什么代价函数用J符号+矩阵其他形式+学习率设置

有个学习率的东西，学习率取个0.5。关于学习率，不能过高也不能过低。因为训练神经网络系统的过程，就是通过不断的迭代，找到让系统输出误差最小的参数的过程。每一次迭代都经过反向传播进行梯度下降，然而误差空间不是一个滑梯，一降到底，常规情况下就像坑洼的山地。学习率太小，那就很容易陷入局部最优，就是你认为的最低点并不是整个空间的最低点。如果学习率太高，那系统可能难以收敛，会在一个地方上串下跳，无法对准目标（目标是指误差空间的最低点），可以看图：

xy轴是权值w平面，z轴是输出总误差。整个误差曲面可以看到两个明显的低点，显然右边最低，属于全局最优。而左边的是次低，从局部范围看，属于局部最优。而图中，在给定初始点的情况下，标出的两条抵达低点的路线，已经是很理想情况的梯度下降路径。
相关阅读:
jbpm 为任务自由选择办理人
 我永远的 dell 15r
select radio readonly
面向对象的5条基本设计原则
 Java数据库缓存思路
 作为java应届生，面试求职那点事
 项目开发中数据字典设计实现缓存
 oracle 优化 —— 分区表
 myeclipse快捷键
 win8 安装myeclipse 失败 MyEclipse ForSpring 安装失败
原文地址：https://www.cnblogs.com/rinroll/p/13642488.html