主成分分析(PCA)原理及推导

标签：数据挖掘 PCA 主成分分析

出处http://blog.csdn.net/zhongkejingwang/article/details/42264479

什么是PCA？

在数据挖掘或者图像处理等领域经常会用到主成分分析，这样做的好处是使要分析的数据的维度降低了，但是数据的主要信息还能保留下来，并且，这些变换后的维两两不相关！至于为什么？那就接着往下看。在本文中，将会很详细的解答这些问题：PCA、SVD、特征值、奇异值、特征向量这些关键词是怎么联系到一起的？又是如何在一个矩阵上体现出来？它们如何决定着一个矩阵的性质？能不能用一种直观又容易理解的方式描述出来？

数据降维

为了说明什么是数据的主成分，先从数据降维说起。数据降维是怎么回事儿？假设三维空间中有一系列点，这些点分布在一个过原点的斜面上，如果你用自然坐标系x,y,z这三个轴来表示这组数据的话，需要使用三个维度，而事实上，这些点的分布仅仅是在一个二维的平面上，那么，问题出在哪里？如果你再仔细想想，能不能把x,y,z坐标系旋转一下，使数据所在平面与x,y平面重合？这就对了！如果把旋转后的坐标系记为x',y',z'，那么这组数据的表示只用x'和y'两个维度表示即可！当然了，如果想恢复原来的表示方式，那就得把这两个坐标之间的变换矩阵存下来。这样就能把数据维度降下来了！但是，我们要看到这个过程的本质，如果把这些数据按行或者按列排成一个矩阵，那么这个矩阵的秩就是2！这些数据之间是有相关性的，这些数据构成的过原点的向量的最大线性无关组包含2个向量，这就是为什么一开始就假设平面过原点的原因！那么如果平面不过原点呢？这就是数据中心化的缘故！将坐标原点平移到数据中心，这样原本不相关的数据在这个新坐标系中就有相关性了！有趣的是，三点一定共面，也就是说三维空间中任意三点中心化后都是线性相关的，一般来讲n维空间中的n个点一定能在一个n-1维子空间中分析！所以，不要说数据不相关，那是因为坐标没选对！

上面这个例子里把数据降维后并没有丢弃任何东西，因为这些数据在平面以外的第三个维度的分量都为0。现在，我假设这些数据在z'轴有一个很小的抖动，那么我们仍然用上述的二维表示这些数据，理由是我认为这两个轴的信息是数据的主成分，而这些信息对于我们的分析已经足够了，z'轴上的抖动很有可能是噪声，也就是说本来这组数据是有相关性的，噪声的引入，导致了数据不完全相关，但是，这些数据在z'轴上的分布与原点构成的夹角非常小，也就是说在z'轴上有很大的相关性，综合这些考虑，就可以认为数据在x',y'轴上的投影构成了数据的主成分！

现在，关于什么是数据的主成分已经很好的回答了。下面来看一个更具体的例子。

下面是一些学生的成绩：

首先，假设这些科目成绩不相关，也就是说某一科考多少份与其他科没有关系。那么一眼就能看出来，数学、物理、化学这三门成绩构成了这组数据的主成分（很显然，数学作为第一主成分，因为数学成绩拉的最开）。为什么一眼能看出来？因为坐标轴选对了！下面再看一组数据，还能不能一眼看出来：

是不是有点凌乱了？你还能看出来数据的主成分吗？显然不能，因为在这坐标系下数据分布很散乱。所以说，看到事物的表象而看不到其本质，是因为看的角度有问题！如果把这些数据在空间中画出来，也许你一眼就能看出来。但是，对于高维数据，能想象其分布吗？就算能描述分布，如何精确地找到这些主成分的轴？如何衡量你提取的主成分到底占了整个数据的多少信息？要回答这些问题，需要将上面的分析上升到理论层面。接下来就是PCA的理论分析。

PCA推导

以下面这幅图开始我们的推导：

上面是二维空间中的一组数据，很明显，数据的分布让我们很容易就能看出来主成分的轴（简称主轴）的大致方向。下面的问题就是如何通过数学计算找出主轴的方向。来看这张图：

现在要做的事情就是寻找u1的方向，对于这点，我想好多人都有经验，这不就是以前用最小二乘法拟合数据时做的事情吗！对，最小二乘法求出来的直线（二维）的方向就是u1的方向！那u2的方向呢？因为这里是二维情况，所以u2方向就是跟u1垂直的方向，对于高维数据，怎么知道u2的方向？经过下面的理论推导，各个主轴都能确定下来。

给定一组数据：（如无说明，以下推导中出现的向量都是默认是列向量）