• Andrew Ng机器学习课程笔记--week2(多元线性回归&正规公式)


    1. 内容概要

    • Multivariate Linear Regression(多元线性回归)
      • 多元特征
      • 多元变量的梯度下降
      • 特征缩放
    • Computing Parameters Analytically
      • 正规公式(Normal Equation )
      • 正规公式非可逆性(Normal Equation Noninvertibility)

    2. 重点&难点

    1)多元变量的梯度下降

    多元变量的梯度下降

    2) 特征缩放

    为什么要特征缩放

    首先要清楚为什么使用特征缩放。见下面的例子

    • 特征缩放前


    由图可以知道特征缩放前,表示面积的x1变量的值远大于x2,因此J(θ)图像表示就是椭圆的,导致在梯度下降的过程中,收敛速度非常慢。

    • 特征缩放后

    对各变量特征缩放后绘制出来的损失函数J(θ)明显收敛更快,这也是为什么需要特征缩放的原因了。

    实现方法

    • feature scaling

    [egin{equation} x_i := frac{x_i}{x_max - x_min} end{equation} ]

    每个输入值除以(max - min)

    • mean normalization

    [egin{equation} x_i := frac{x_i - μ_i}{s_i} end{equation} ]

    μi: 均值
    si: max - min

    3) Normal Equation 正规方程式

    Normal Equation

    [egin{equation} θ = (X^T·X)^{﹣1}·X·Y end{equation} ]

    具体推理过程详见掰开揉碎推导Normal Equation

    与梯度下降方法进行比较

    梯度下降 正规方程式
    需要选择步长α 不需要选择步长α
    需要迭代训练很多次 一次都不需要迭代训练
    O(kn2) O(n3,计算(XT·X)-1需要花费较长时间
    即使数据特征n很大,也可以正常工作 n如果过大,计算会消耗大量时间

    4) 正规方程不可逆

    当XT·X不可逆时,很显然此时正规方程将不能正常计算,常见原因如下:

    • 冗余特征,在两个特点紧密相关(即它们呈线性关系,例如面积和(长,宽)这两个特征线性相关)
    • 太多的特征(例如:m≤n)。 在这种情况下,可以删除一些特征或使用"regularization"。

    补充:

    • A是可逆矩阵的充分必要条件是 |A|≠0




    MARSGGBO原创

    2017-8-2

  • 相关阅读:
    分治法的经典问题——大整数相乘
    分治法的经典问题——大整数相乘
    L2-013. 红色警报(dfs)
    L2-013. 红色警报(dfs)
    L2-012. 关于堆的判断
    L2-012. 关于堆的判断
    二进制和位运算中的异或
    2015年天勤考研机试模拟赛 A 推断三角形
    怎样利用kettle官方社区查找关于carte服务的设置
    openCV中 libopencv-nonfree-dev的安装: undefined reference to `cv::initModule_nonfree()'
  • 原文地址:https://www.cnblogs.com/marsggbo/p/7429007.html
Copyright © 2020-2023  润新知