• PCA主成分分析


    特征降维就是降低特征矩阵维数,减少噪声和冗余,减少过度拟合。

    Principal factor analysis简称PCA,其思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主元,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。

    PCA计算步骤:

    1. 分别求出每一特征的平均值,然后所有特征都减去其对应的均值
    2. 求特征协方差矩阵
    3. 求协方差的特征值和特征向量
    4. 将特征值按照从大到小的顺序排序,选择前k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵
    5. 将m * n的数据集乘以k个n维的特征向量的特征向量(n * k),得到最后降维的数据

    为什么要按从大到小排序选择前K个特征?

      因为特征值越大,说明矩阵在对应的特征向量上的方差越大,样本点越离散,越容易区分,信息量也就越多

    参考

    http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html

    http://blog.csdn.net/dream_angel_z/article/details/50760130

  • 相关阅读:
    2016-02-24 工作日记
    金字塔培训
    你找到自己的路了么?
    你是个成熟的职场人么?
    码农十年总结
    码农十年连载六
    码农十年连载五
    码农十年连载四
    码农十年连载三
    码农十年连载二
  • 原文地址:https://www.cnblogs.com/xiaoyun94/p/7416526.html
Copyright © 2020-2023  润新知