简述多种降维算法

【转载请注明出处】chenrudan.github.io

最近看了一些关于降维算法的东西，本文首先给出了七种算法的一个信息表，归纳了关于每个算法可以调节的(超)参数、算法主要目的等等，然后介绍了降维的一些基本概念，包括降维是什么、为什么要降维、降维可以解决维数灾难等，然后分析可以从什么样的角度来降维，接着整理了这些算法的具体流程。主要目录如下:

老规矩，先上一个各个算法信息表， $X$

图1 不同降维算法对比

这里autoencoder是否去中心化个人觉得还是有点疑问，在处理图像数据的时候，会对输入图片做一个变到0均值的预处理，但是这个操作是针对一张样本内减均值[1]，这里的去中心化指的是针对某一维数据减均值，并不是一个概念。下面开始具体谈谈降维相关的内容。

1. 降维基本概念

降维的意思是能够用一组个数为d的向量 $z_{i}$

而为什么可以降维，这是因为数据有冗余，要么是一些没有用的信息，要么是一些重复表达的信息，例如一张512*512的图只有中心100*100的区域内有非0值，剩下的区域就是没有用的信息，又或者一张图是成中心对称的，那么对称的部分信息就重复了。正确降维后的数据一般保留了原始数据的大部分的重要信息，它完全可以替代输入去做一些其他的工作，从而很大程度上可以减少计算量。例如降到二维或者三维来可视化。

2. 从什么角度出发来降维

一般来说可以从两个角度来考虑做数据降维，一种是直接提取特征子集做特征抽取，例如从512*512图中只取中心部分，一种是通过线性/非线性的方式将原来高维空间变换到一个新的空间，这里主要讨论后面一种。后面一种的角度一般有两种思路来实现[2]，一种是基于从高维空间映射到低维空间的projection方法，其中代表算法就是PCA，而其他的LDA、Autoencoder也算是这种，主要目的就是学习或者算出一个矩阵变换W，用这个矩阵与高维数据相乘得到低维数据。另一种是基于流形学习的方法，流形学习的目的是找到高维空间样本的低维描述，它假设在高维空间中数据会呈现一种有规律的低维流形排列，但是这种规律排列不能直接通过高维空间的欧式距离来衡量，如下左图所示，某两点实际上的距离应该是下右图展开后的距离。如果能够有方法将高维空间中流形描述出来，那么在降维的过程中就能够保留这种空间关系，为了解决这个问题，流形学习假设高维空间的局部区域仍然具有欧式空间的性质，即它们的距离可以通过欧式距离算出(Isomap)，或者某点坐标能够由临近的节点线性组合算出(LLE)，从而可以获得高维空间的一种关系，而这种关系能够在低维空间中保留下来，从而基于这种关系表示来进行降维，因此流形学习可以用来压缩数据、可视化、获取有效的距离矩阵等。

图2 流形学习

3. 几种降维方法流程

相关阅读:
【大数据云原生系列】大数据系统云原生渐进式演进最佳实践
Apache Flink on K8s：四种运行模式，我该选择哪种？
Istio 运维实战系列（2）：让人头大的『无头服务』-上
istio 常见的 10 个异常
Prometheus Metrics 设计的最佳实践和应用实例，看这篇够了！
腾讯会议大规模使用Kubernetes的技术实践
腾讯云推出云原生etcd服务
Regionals 2014 Asia
HDU1754 I Hate It splay
HNOI2002 营业额统计 splay

原文地址：https://www.cnblogs.com/jiangkejie/p/11596857.html