机器学习-PCA降维

机器学习-PCA降维
如果对协方差不清楚的点击这里《协方差的直观理解》

机器学习-降维方法

降维不仅可以降低数据维度，减少计算量，便于优化，更可以可以去除数据噪点，其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。因为在降维的过程中，会选择最大化分散程度的方向。便于提取具有跟大特征意义的维度。

目的

数据降维的目的:数据降维，直观地好处是维度降低了，便于计算和可视化，其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。

好处

降维可以方便数据可视化+数据分析+数据压缩+数据提取等。

方法

映射方法 _线性映射方法：PCA、LDA、SVD分解等

PCA（Principal Component Analysis）

PCA方法简介 主成分分析的思想，就是线性代数里面的K-L变换，就是在均方误差准则下失真最小的一种变换。是将原空间变换到特征向量空间内，数学表示为Ax=λx。

通俗理解：就是找出一个最主要的特征，然后进行分析。最大化投影后数据的方差(让数据更分散),如果投影到线上,发现数据越紧密,那么模型越难将这些点区分.

思想
• 投影后样本越分散,保留的信息越多

PCA优缺点：　　

优点：1）最小误差。2）提取了主要信息　　

缺点：1）计算协方差矩阵，计算量大

PCA步骤

假设原始数据是10（行，样例数，y1-y10）*10（列，特征数x1-x10）的（10个样例，每样例对应10个特征）

（1）、分别求各特征（列）的均值并对应减去所求均值。

（2）、求特征协方差矩阵对角线上是方差，非对角线是协方差；协方差为0时两者独立，其绝对值越大，两者对彼此的影响越大。

（3）、求协方差阵的特征值和特征向量。

（4）、将特征值按照从大到小排序，选择其中最大的k个。将其对应的k个特征向量分别作为列向量组成特征向量矩阵。

这个矩阵就是我们要求的特征矩阵(也称特征脸)，里面每一列就为样本的一维主成分。把样本矩阵投影到以该矩阵为基的新空间中，便可以将n维数据降低成k维数据。

（5）、将样本点投影到选取的k个特征向量上。

这里需要捋一捋，若原始数据中样例数为m，特征数为n，减去均值后的样本矩阵仍为MatrixDATA(m,n);

协方差矩阵是C（n,n）;

特征向量矩阵为EigenMatrix(n,k);
```
投影可得： FinalDATA(m,k)=MatrixDATA(m,n) * EigenMatrix(n,k) 。 
```
这样，原始数据就由原来的n维特征变成了k维，而k维跟原始数据的维没有关系，是原始特征在k维上的投影。这k维特征基本上代表了原先的n个特征（牺牲掉所认为不重要个维度的信息，即后n-k个特征向量所代表的维度）。
相关阅读:
Vue常用语法
 Vue--过滤器、指令、插件
 使用vue-cli创建项目
 electron Ctrl+滚轮事件放大缩小
 axios 处理超时问题记录
 electron 清除所有cookie记录
 electron用默认浏览器打开链接的3种实现方式
 electron 不支持Ctrl+滚动条放大缩小，自己动手做了一个react组件
 排序算法记录
 umi react 集成 spreadjs
原文地址：https://www.cnblogs.com/zhuimengzhe/p/10225107.html

机器学习-PCA降维

机器学习-降维方法

目的

好处

方法

PCA（Principal Component Analysis）

PCA步骤

这样，原始数据就由原来的n维特征变成了k维，而k维跟原始数据的维没有关系，是原始特征在k维上的投影。这k维特征基本上代表了原先的n个特征（牺牲掉所认为不重要个维度的信息，即后n-k个特征向量所代表的维度）。