对The Curse of Dimensionality（维度灾难）的理解

一个特性：低维（特征少）转向高维的过程中，样本会变的稀疏（可以有两种理解方式：1.样本数目不变，样本彼此之间距离增大。2.样本密度不变，所需的样本数目指数倍增长）。

高维度带来的影响：

1.变得可分。

由于变得稀疏，之前低维不可分的，在合适的高维度下可以找到一个可分的超平面。

2.过拟合风险。

过高维度会带来过拟合的风险（会学习到数据集中的特例或异常，对现实测试数据效果较差）。增加维度的线性模型等效于低维空间里较复杂的非线性分类器。

3.需要更多训练数据。我们需要更多的训练数据进行参数估计。

4.过高维度会让分类变难。

高维下数据更多分布在空间角落（因为单位球占单位立方体下的空间比例随着维度增加，越来越小。处于单位球内的可以看出靠近中心），而角落处的特征更难分，因为距离更大。

5.高维度中用距离来衡量样本相似性的方法已经渐渐失效。

（几乎所有的高维空间都远离其中心，任意两点的距离会趋向收敛，意思是任意两点的最大距离和最小距离会变为相同。因此基于欧式距离的k-means算法，会无法进行聚类（因为距离会趋于收敛）。而K-NN会的临近K个点中，会出现更多非同类的点（远多于低维度的情况）。）

相关阅读:
用rpm安装软件的常用步骤
将应用发布到WasLiberty的两种方法
安装 ibm-java-x86_64-sdk-6.0-9.3.x86_64.rpm 的三步骤
人是科技的第一生产力。不重视人的价值，不尊重人的需求，不解放人的生产力，必将被互联网时代快速淘汰。
Java保存简单偏好的类
实用快捷键Win+L=锁屏
判断一件事有无技术含量的标准
主动去平事别等事找人
看了某些蛊惑人心的招聘广告，实在忍不住想要提醒那些跃跃欲奉献的后生们
ubuntu16.04在英文状态下安装中文语言包的过程(法二：命令行的方式)

原文地址：https://www.cnblogs.com/dingz/p/9029395.html