• 主成分分析 Principle Component Analysis


     

    一、主要思想

    利用正交变换把可能线性相关变量表示的观测数据,转换为由少数几个线性无关变量(主成分)表示的数据。(重构原始特征空间;线性降维)

    要尽可能保留原始数据中的信息,两个思路:最大投影方差、最小投影距离。

    完全的无监督,只需要通过方差来衡量信息量(但也是一种局限性)。各个主成分正交,降维后不同维度特征之间不再有相关性(但失去维度的具体含义)。

     

    二、数据矩阵的SVD分解

    对样本方差矩阵的特征值分解  等价于  对数据矩阵的SVD分解

    也就是说,要用 PCA 降维直接对 HX 做 SVD 分解就行了

     

    三、主坐标分析

    主成分分析是先找到各主成分方向,再求原数据在主成分方向的坐标(对 P x P 维的样本方差矩阵 S = XTX 特征值分解)

    主坐标分析是直接求原数据在主成分方向的坐标(对 N x N 维的 T = XXT 特征值分解,其特征向量就是数据在对应主成分方向上的坐标)

     

    四、概率PCA

    重构的变量 Z 看作隐变量,从概率角度理解PCA。(属于线性高斯模型)

    先把 Z,X | Z,X 的分布搞清楚了(假设 Z 和 ε 服从高斯,令X = WZ + μ + ε,则X|Z,X 都服从高斯分布,通过 MLE 或者 EM 估计参数 W,μ,σ)。

    降维就是求P(Z|X),在给定X的情况下找到概率最大的 Z 作为降维的结果。

     

  • 相关阅读:
    Bluedroid与BluZ,蓝牙测试方法的变动(基于bludroid和BlueZ的对比)
    dumpsys 用法
    ffmpeg开发指南
    Python七大原则,24种设计模式
    总结工厂模式---简单工厂、工厂方法、抽象工厂
    抽象工厂(Abstract Factory)
    工厂模式(Factory Method)
    逻辑回归(Logistic Regression) ----转载
    随机森林(Random Forest)--- 转载
    时间序列分析
  • 原文地址:https://www.cnblogs.com/chaojunwang-ml/p/11187243.html
Copyright © 2020-2023  润新知