• 机器学习 | 吴恩达斯坦福课程笔记整理之(一)线性回归


    本系列为吴恩达斯坦福CS229机器学习课程笔记整理,以下为笔记目录:

      (一)线性回归

      (二)逻辑回归

      (三)神经网络

      (四)算法分析与优化

      (五)支持向量机

      (六)K-Means

      (七)特征降维

      (八)异常检测

      (九)推荐系统

      (十)大规模机器学习

    第一章 线性回归

    一、ML引言

    • 学习行为,定制服务
    • 监督学习和非监督学习
    • 了解应用学习算法的实用建议
    1.3 监督学习
    • 基本思想:数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测。
    • 连续变量-回归,离散变量-分类;
    1.4 非监督学习
    • 无标签
    • 聚类算法
    • 从数据中找到某种结构

    二、回归问题

    • 步骤:积累知识(training set)-> 学习(learning algorithm)->预测(对应关系)

    三、线性回归与梯度下降

    • 预测
    特征,特征向量,输出向量,假设hypothesis(预测函数)
              
    而称为回归方程,θ 为回归系数
    • 误差评估
    评估各个真实值 y(i) 与预测值 hθ(x(i)) 之间的差异  -> 最小均方(Least Mean Square)
               
    也称为代价函数(Cost function)
    • 批量梯度下降BGD
    学习效果不好时,纠正学习策略
    目标:反复调节 θ 使得预测 J(θ) 足够小  -> 梯度下降(Gradient Descent)
             
    沿着梯度方向,接近最小值。
     
    对于一个样本容量为 m 的训练集,我们定义 θ 的调优过程为:重复直到收敛(Repeat until convergence),该过程为基于最小均方(LMS)的批量梯度下降法(Batch Gradient Descent)
    但是每调节一个θj ,都要历一遍样本集,如果样本的体积m很大,开销巨大
    • 随机梯度下降(Stochastic Gradient Descent, SGD):样本量巨大时,迅速获得最优解
            

    四、正规方程

    为求得 J(θ) 的最小值,通过正规方程来最小化 J(θ) :
    摆脱了学习率的束缚,但只适合于低维向量
            

    五、特征缩放

    将各个特征量化到统一的区间,两种量化方式:
    1)Standardization
    又称为 Z-score normalization,量化后的特征将服从标准正态分布:
               
    其中, μ, δ 分别为对应特征 xi 的均值和标准差。量化后的特征将分布在 [−1,1] 区间。
     
    2)Min-Max Scaling
    又称为 normalization
              
    量化后的特征将分布在 [0,1] 区间。

    六、多项式回归

    方程中添加高阶项,提高拟合效果

    七、欠拟合和过拟合

    • 欠拟合(underfitting):拟合程度不高,数据距离拟合曲线较远。
    • 过拟合(overfitting):过度拟合,貌似拟合几乎每一个数据,但是丢失了信息规律。
    为了解决欠拟合和过拟合问题,引入了局部加权线性回归(Locally Weight Regression)。
     
    在 LWR 中,我们对一个输入 x 进行预测时,赋予了 x 周围点不同的权值,距离 x 越近,权重越高。整个学习过程中误差将会取决于 x 周围的误差,而不是整体的误差,这也就是局部一词的由来。
    通常, w(i) 服从高斯分布,在 x 周围呈指数型衰减:
    其中, τ 值越小,则靠近
     
     
  • 相关阅读:
    近期学习情况
    java连接数据库的两种方法总结
    近两个星期学习成果
    云笔记第一阶段总结
    圆面积
    C++计算器项目的初始部分
    C++视频课程
    A+B Format
    大一下学期的自我目标
    Kohana的请求流
  • 原文地址:https://www.cnblogs.com/geo-will/p/10306685.html
Copyright © 2020-2023  润新知