哈尔滨工业大学计算机学院-模式识别-课程总结（五）-成分分析

哈尔滨工业大学计算机学院-模式识别-课程总结（五）-成分分析
1. 成分分析

常用的成分分析有PCA和FDA，本章主要介绍主成分分析PCA，对于FDA，只是简要介绍其主要数学思想。
进行成分分析的目的是对数据集特征进行降维，降维的好处有：
- 减少计算量
- 提高泛化能力：减少模型的参数数量。往往数据特征维度越高，模型越容易过拟合。
融入核函数的SVM，虽然是在高维特征空间下学习分类界面，但是由于SVM的VC维受分类界面与样本控制，因此不会增大其VC维，也就不会降低模型的泛化能力。

2. 主成分分析PCA
- PCA：一种最常用的线性成分分析方法。
- PCA的主要思想：寻找到数据的主轴方向，由主轴构成一个新的坐标系（维数可以比原维数低），然后数据由原坐标系向新的坐标系投影。
- PCA的其它名称：离散K-L变换，Hotelling变换。
PCA从尽量减少信息损失的角度实现降维。

2.1 PCA坐标变换说明
- 坐标变换过程：
[egin{array} { c } { mathbf { x } = mathbf { mu } + mathbf { x } ^ { prime } } \ { mathbf { x } = oldsymbol { mu } + sum _ { i = 1 } ^ { d } a _ { i } mathbf { e } _ { i } } \ { hat { mathbf { x } } = mathbf { mu } + sum _ { i = 1 } ^ { d ^ { prime } } a _ { i } mathbf { e } _ { i } } end{array} ]
- PCA的优化问题: (min _ { mathbf { e } _ { 1 } , cdots , mathbf { e } _ { d } } J left( mathbf { e } _ { 1 } , cdots , mathbf { e } _ { d } ight) = frac { 1 } { n } sum _ { k = 1 } ^ { n } left| mathbf { x } _ { k } - hat { mathbf { x } } _ { k } ight| ^ { 2 })
如图所示，坐标A降维到新的坐标系下红色虚线指向的一维坐标。（选择(e_1)作为新坐标系的基向量）

2.2 PCA算法
- PCA算法的过程（这里只介绍结果，没有数学证明过程）：
  1. 利用训练样本集合计算样本的均值(mu)和协方差矩阵(Sigma).
  2. 计算(Sigma)的特征值，并由大到小排序。
  3. 选择前(d^′%个特征值对应的特征矢量作成一个变换矩阵)E=[e_1, e_2, …, e_(d^′ )]$。
  4. 训练和识别时，每一个输入的(d)维特征矢量(x)可以转换为(d^′)维的新特征矢量(y)：
[mathbf { y } = mathbf { E } ^ { t } ( mathbf { x } - mathbf { mu } ) ]
2.3 PCA算法特点
1. 正交性：由于(Sigma)是实对称阵，因此特征矢量是正交的。
2. 不相关性：将数据向新的坐标轴投影之后，特征之间是不相关的。
3. 特征值：描述了变换后各维特征的重要性，特征值为0的各维特征为冗余特征，可以去掉。
3. 基于Fisher准则的线性判别分析FDA
- PCA是典型的无监督算法，但是我们降维的目的往往是为了后续步骤的进一步分类。PCA因为其无监督的特点，将所有的样本作为一个整体对待，寻找一个平方误差最小意义下的最优线性映射，而没有考虑样本的类别属性。因此在降维的过程中，尽管是沿着信息损失最少的方向，但也有可能就会把类别信息丢失。
- 在下图的例子中，二维数据如果沿着(e_1)特征方向进行降维，会完全丢失类别信息。
- 而FDA则是在可分性最大意义下的最优线性映射，充分保留了样本的类别可分性信息。
3.1 FDA可视化
- 三类问题的FDA可视化：
3.2 FDA算法特点
1. 非正交：经FDA变换后，新的坐标系不是一个正交坐标系。
2. 特征维数：新的坐标维数最多为(c-1)，(c)为类别数。
相关阅读:
SQL2008性能计数器注册表配置单元一致性失败
 win8 下 IIS APPPOOLDefaultAppPool 登录失败的解决方法
 Win8 x64环境下VS2010 C#工程运行报错：没有注册类 (异常来自 HRESULT:0x80040154
编辑距离
 UVA 147 Dp（完全背包）
poj 1141 Brackets Sequence
hdu2612 Find a way BFS
I
javascript--运算符
 javascript--变量
原文地址：https://www.cnblogs.com/szxspark/p/9929618.html

哈尔滨工业大学计算机学院-模式识别-课程总结（五）-成分分析

1. 成分分析

2. 主成分分析PCA

2.1 PCA坐标变换说明

2.2 PCA算法

2.3 PCA算法特点

3. 基于Fisher准则的线性判别分析FDA

3.1 FDA可视化

3.2 FDA算法特点