主成分分析(PCA)简介及sklearn参数

1. PCA简介

　　PCA作为降维最重要的方法之一，在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。PCA的思想就是将高维数据投影到低维，一般基于两个标准选择投影方向：

基于最小投影距离

　　　　样本点到投影超平面的距离足够近

基于最大投影方差

　　　　样本点投影在超平面上的方差足够大，能够竟可能的分开，即方差最大方向的分解

　　ps：什么情况下需要进行降维？

　　　　数据集特征数较多，导致数据在每个特征维度上的分布稀疏；

　　　　特征自相关。

2.PCA算法流程

　　　　1) 对所有的样本进行中心化：样本的每个特征减去该特征均值； $x^{(i)} = x^{(i)} - \frac{1}{m} \sum_{j = 1}^{m} x^{(j)}$

　　　　2) 计算样本的协方差矩阵； $X X^{T}$

　　　　3) 对协方差矩阵 $X X^{T}$

　　　　4) 取出最大的n'个特征值对应的特征向量， $(w_{1}, w_{2}, . . ., w_{n^{'}})$

　　　　5) 用特征向量矩阵乘以样本集中的每一个样本 $x^{(i)}$

$x^{(i)}$ $x^{(i)}$ $x^{(i)}$

$x^{(i)}$

$x^{(i)}$

- $x^{(i)}$
- $x^{(i)}$
- $x^{(i)}$
- $x^{(i)}$

$x^{(i)}$

- $x^{(i)}$
- $x^{(i)}$
- $x^{(i)}$
- $x^{(i)}$

$x^{(i)}$ n_components == 'mle'时，需要和参数svd_solver一起使用，且svd_solver需要选择 'full' 参数；即pca = PCA(n_components = 'mle',svd_solver='full')；同时要保证输入数据的样本数多于特征数才可执行成功。

　　另外，有两个PCA类的成员值得关注。第一个是explained_variance_，它代表降维后的各主成分的方差值，方差值越大，则说明越是重要的主成分。第二个是explained_variance_ratio_，它代表降维后的各主成分的方差值占总方差值的比例，这个比例越大，则越是重要的主成分。

参考：https://www.cnblogs.com/pinard/p/6239403.html

$x^{(i)}$

原文地址：https://www.cnblogs.com/solong1989/p/9681788.html