• 机器学习-PCA降维


    如果对协方差不清楚的 点击这里《协方差的直观理解》

    机器学习-降维方法

    降维不仅可以降低数据维度,减少计算量,便于优化,更可以可以去除数据噪点,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。因为在降维的过程中,会选择最大化分散程度的方向。便于提取具有跟大特征意义的维度。

    目的

    数据降维的目的:数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。

    好处

    降维可以方便数据可视化+数据分析+数据压缩+数据提取等。

    方法

    映射方法 _线性映射方法:PCA、LDA、SVD分解等

    PCA(Principal Component Analysis)

    PCA方法简介 主成分分析的思想,就是线性代数里面的K-L变换,就是在均方误差准则下失真最小的一种变换。是将原空间变换到特征向量空间内,数学表示为Ax=λx。

    通俗理解:就是找出一个最主要的特征,然后进行分析。最大化投影后数据的方差(让数据更分散),如果投影到线上,发现数据越紧密,那么模型越难将这些点区分.

    思想
    • 投影后样本越分散,保留的信息越多

    PCA优缺点:    

    ​ 优点:1)最小误差。2)提取了主要信息    

    ​ 缺点:1)计算协方差矩阵,计算量大

    PCA

    PCA步骤

    假设原始数据是10(行,样例数,y1-y10)*10(列,特征数x1-x10)的(10个样例,每样例对应10个特征)

    (1)、分别求各特征(列)的均值并对应减去所求均值。

    (2)、求特征协方差矩阵对角线上是方差,非对角线是协方差;协方差为0时两者独立,其绝对值越大,两者对彼此的影响越大。

    (3)、求协方差阵的特征值和特征向量。

    (4)、将特征值按照从大到小排序,选择其中最大的k个。将其对应的k个特征向量分别作为列向量组成特征向量矩阵。

    这个矩阵就是我们要求的特征矩阵(也称特征脸),里面每一列就为样本的一维主成分。把样本矩阵投影到以该矩阵为基的新空间中,便可以将n维数据降低成k维数据。

    (5)、将样本点投影到选取的k个特征向量上。

    ​ 这里需要捋一捋,若原始数据中样例数为m,特征数为n,减去均值后的样本矩阵仍为MatrixDATA(m,n);

    ​ 协方差矩阵是C(n,n);

    ​ 特征向量矩阵为EigenMatrix(n,k);

    投影可得: FinalDATA(m,k)=MatrixDATA(m,n) * EigenMatrix(n,k) 。 
    

    这样,原始数据就由原来的n维特征变成了k维,而k维跟原始数据的维没有关系,是原始特征在k维上的投影。这k维特征基本上代表了原先的n个特征(牺牲掉所认为不重要个维度的信息,即后n-k个特征向量所代表的维度)。
  • 相关阅读:
    ThinkPHP
    ThinkPHP
    静态化
    静态化
    静态化
    设计模式
    sublime
    静态化
    OPTIMIZE TABLE 小解
    information_schema系列八(事物,锁)
  • 原文地址:https://www.cnblogs.com/zhuimengzhe/p/10225107.html
Copyright © 2020-2023  润新知