PCA算法的最小平方误差解释

PCA算法的最小平方误差解释

PCA算法另外一种理解角度是：最小化点到投影后点的距离平方和.

假设我们有m个样本点，且都位于n维空间 $xin mathbb{R}^n$ 中，而我们要把原n维空间中的样本点投影到k维子空间W中去（k<n），并使得这m个点到投影点的距离(即投影误差)的平方和最小.我们假设投影到的k维子空间的标准正交基（orthonormal basis）为 $u_1,u_2,cdots,u_k$ ，这组标准正交基组成了一个 $n imes k$ 的矩阵U：

$U=egin{bmatrix} u_1Bigg| u_2Bigg|cdotsBigg| u_k end{bmatrix}$

则 $P=UU^T$ 称为子空间W 的投影矩阵（projection matrix）。

如果我们不从标准正交基出发，如何求得W的投影矩阵？设 $a_1,a_2,...,a_k$ 是W 的任意一组基，形成一个 $n imes k$ 的矩阵 $A=egin{bmatrix} a_1Bigg| a_2Bigg|cdotsBigg| a_k end{bmatrix}$ 则W的投影矩阵是 $A(A^TA)^{-1}A^T$

投影矩阵具有如下性质：

$egin{aligned} &P^n=P(n=1,2,cdots),quad P^T=P \ &(I-P)^n=I-P(n=1,2,cdots),quad (I-P)^T=I-P end{aligned}$

记每一个点 $x^{(i)}$ 对应的投影误差为 $e^{(i)}$ ，且投影误差的表达式为 $e^{(i)}=(I-P)x^{(i)}$ ，那么我们要最小化的表达式为：

$E'=sum_{i=1}^{m}e^{(i)T}e^{(i)}$

为了后面的推导方便，我将上式除以 $frac{1}{m}$ 即样本个数），由于其是定值，所以不影响我们问题的求解

$egin{aligned} E&=frac{1}{m}sum_{i=1}^{m}e^{(i)T}e^{(i)}\ &=frac{1}{m}sum_{i=1}^{m}[(I-P)x^{(i)}]^T (I-P)x^{(i)}\ &=frac{1}{m}sum_{i=1}^{m}x^{(i)T}(I-P)^T (I-P)x^{(i)}\ &=frac{1}{m}sum_{i=1}^{m}x^{(i)T}(I-P)^2 x^{(i)}\ &=frac{1}{m}sum_{i=1}^{m}x^{(i)T}(I-P)x^{(i)}\ &=frac{1}{m}sum_{i=1}^{m}x^{(i)T}x^{(i)}-frac{1}{m}sum_{i=1}^{m} x^{(i)T}Px^{(i)}\ end{aligned}$

由于 $x^{(i)},i=1,2,...,m$ 是预先给定的样本点，故上式中第一项是定值，因此我们的问题转化为了求第二项的最大值，即

$max_P frac{1}{m}sum_{i=1}^{m}x^{(i)T}Px^{(i)}$

由于 $P=UU^T$ （其中U是以子空间W的标准正交基为列构成的矩阵），上面的问题等价于 $max_U frac{1}{m}sum_{i=1}^{m}x^{(i)T}UU^Tx^{(i)}$

对其进一步化简得：

$egin{aligned} frac{1}{m}sum_{i=1}^{m}x^{(i)T}UU^Tx^{(i)} &= frac{1}{m}sum_{i=1}^{m}(U^Tx^{(i)})^T(U^Tx^{(i)})\ &=frac{1}{m}sum_{i=1}^{m}(u_1^Tx^{(i)},u_2^Tx^{(i)}, ...,u_k^Tx^{(i)})cdot(u_1^Tx^{(i)},u_2^Tx^{(i)}, ...,u_k^Tx^{(i)})^T\ &=frac{1}{m}sum_{i=1}^{m}sum_{j=1}^k (u_j^Tx^{(i)})^2\ &=frac{1}{m}sum_{i=1}^{m}sum_{j=1}^k u_j^Tx^{(i)}x^{(i)T}u_j\ &=sum_{j=1}^k u_j^T(frac{1}{m}sum_{i=1}^{m}x^{(i)}x^{(i)T}) u_j\ &=sum_{j=1}^k u_j^TSigma u_j end{aligned}$ 因此， $min E$ 等价于

$egin{aligned} &max_{u_1,u_2,cdots,u_k}sum_{j=1}^{k}u_j^TSigma u_j\ &s.t.quad u_j^Tu_j=1(j=1,2,cdots,k) end{aligned}$

求解上面的 $u_j$ 要用到最大方差解释中使用的Lagrangian Multiplier，在此不再赘述，而最后求得的 $u_1,u_2,cdots,u_k$ 就是协方差矩阵 $Sigma$ 的前k个特征向量
相关阅读:
Windows 经典DOS命令大全
 Linux常用命令大全（全面）
Nova 实现的 Fit Instance NUMA to Host NUMA 算法
 计算机组成原理 — 冯诺依曼体系结构
 计算机组成的基本硬件设备
 OpenStack 高性能虚拟机之大页内存
 Ironic 的 Rescue 救援模式实现流程
 SQLite 版本引发的 Python 程序调用问题
 Ceph 故障修复记录（持续更新）
注册 Ironic 裸金属节点并部署裸金属实例
原文地址：https://www.cnblogs.com/wacc/p/3428110.html