• 神经网络训练的优化操作


    1. 输入特征值x的归一化。

    如果有(x1,x2),x1的取值范围是[0~1],而x2是[0~2000],那么会造成损失函数J(θ)的形状:

    (J(θ)的等高线图)

    在求J(θ)最小值时,对θ1和θ2反向传播,修改值时,往往使得修改的方向震荡。

    改进办法是,将x1和x2的取值范围,规定在差不多的范围内,通常在[0,1]区间,得到J(θ)等高线图:

    办法:

    xi = (xi - avg(x)) / (xmax - xmin)

    2. 损失函数正规化

    在实际中,如果有x1……xn 多个特征,有的x= xixj 或者 xm = xi这样的特征组合而成的新特征,有用,但是不是十分重要的话(要视具体问题而定),如果对应的θ偏大的话,往往会产生过拟合问题。

    例如:

    (欠拟合,刚好拟合,过拟合)

    对于损失函数,如果J(θ) = 1 / 2n ∑(hθ(x) - y ) + 1000 * θi  + 1000 * θj   (假设θi和θj 是无关紧要的特征的权值)

    那么,根据反向传播 θi = θi - a * d(J(θ)) / dθi , d(J(θ)) / dθi  为一个大数,也就是θi 被"惩罚"得特别厉害。

    正规的方程应该为:

    J(θ) = 1 / 2n * [ ∑(hθ(x) - y )2 + λ ∑ θ2 ]

    θi = θi(1 - a*λ/n) + a/m * (∑(hθ(x) - y )) *x(当hθ(x) = θTX)

    原来是:θi = θi+ a/m * (∑(hθ(x) - y )) *xi

    1 - a*λ/n 接近于1。也就是说,每次更新,都会先对原来的θ进行缩小

    注意,如果λ过大,会导致每个θ过小,最终拟合出一条水平直线出来。

  • 相关阅读:
    取石子(二)巴仕博弈+尼姆博弈
    hdu2430Beans(单调队列)
    LCD: 2D-3D匹配算法
    如何选择视觉CV光源颜色
    gpgpu-sim卡分配程序设计实例分析
    PointRCNN: 点云的3D目标生成与检测
    3D点云重建原理及Pytorch实现
    GPU加速计算
    红外传感器技术
    Linux架构思维导图
  • 原文地址:https://www.cnblogs.com/pylblog/p/10808882.html
Copyright © 2020-2023  润新知