• 初识机器学习——吴恩达《Machine Learning》学习笔记(十四)


    降维(Dimensionality Reduction)

    目标一:数据压缩(Motivation I:Data Compresstion)

    降维——另一种无监督学习的方法。如,数据从三维降到二维(3D-2D)、从二维降到一维(2D-1D)。

    数据压缩的目的:减少内存空间的占用;加快算法运行速度。

    目标二:数据可视化(Motivation II:Data Visualization)

    通过把数据从50维、100维甚至更高维度,降低到二维、三维等来进行数据可视化分析,从而更好地分析数据。

    主成分分析问题规划(Principal Component Analysis probrem formulation)

    对于降维问题,目前最流行的方法是一个叫主成分分析方法(PCA)的算法。

    主成分分析方法:在PCA之前,一般需要对数据进行均值归一化、特征规范化。PCA方法,找到一个低维平面,对数据进行投影(90度投影或正交投影),以及最小化每个点与投影对应点之间的距离的平方值。

    注意:PCA方法不是线性回归。

    PCA方法:点与投影点之间的垂直距离

    线性回归:点与直线的竖直距离(沿Y轴方向)

    主成分分析算法(Principal Component Analysis algorithm)

    数据预处理——特征缩放/均值归一化

    均值归一化:使得替换后的数据均值为0

    PCA算法

    PCA算法——获取U中前k列

    PCA算法总结

    主成分参数的选择(Choosing the number of principal component)

    计算预测误差平方和的均值

    数据集的总变动

    选择最小的k值以满足方差要求

    另一种方法计算K值

    以上总结

    应用PCA的建议(Advice for applying PCA)

    在监督学习中,用来提高速度。注意,数据只能在training set 时进行Mapping,但是可以用在交叉验证集和测试集上。

    应用PCA来压缩数据或者可视化——提高算法效率以及降低硬盘内存的消耗

    注意:不用尝试使用PCA来降低过拟合!降低过拟合应该使用正则化!

    不要解决一个算法问题时,一上来就把PCA列在计划的首选中。而是,一开始就不应该考虑PCA,只有在需要提高算法运行速度或者减低内存时才应该考虑

  • 相关阅读:
    autorun.inf删除方法
    Re_Write序列号
    最常用的正则表达式
    SQL聚合使用GROUP BY
    Ext.Net的Window控件的简单使用
    SQL统计查询一个表中的记录,然后减法运算
    C#金额转换为汉字大写
    Ext.Net的Button按钮的使用
    C# 参考之方法参数关键字:params、ref及out 引用
    C#连接ACCESS 2007数据库
  • 原文地址:https://www.cnblogs.com/haifengbolgs/p/9507220.html
Copyright © 2020-2023  润新知