在实际应用过程中人们经常会碰到各种类型的海量数据,如各种贸易交易数据 基因表达数据 文档词频数据 用户评分数据 WEB使用数据及多媒体数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高,这些数据在统计处理中通常称为高维数据。
我们所处的空间是3维的,在3维或以下空间人类可以有比较直接的认知,例如,一个点是0维,一条直线是1维的,一个正方形是2维的,一个立方体是3维的,但到了4维以上就很难用简单直观的图来表示,不能用直接感知的普通方式对其思考,因此直观描述高维数据是一件比较困难的事情。
在分析高维数据时,存在以下两个主要困难:
一是欧氏距离问题 在2~10维的低维空间中欧氏距离是有意义的,可以用来度量数据之间的相似性,但在高维空间就没有太大意义了 由于高维数据的稀疏性,将低维空间中的距离度量函数应用到高维空间时,随着维数的增加,数据对象之间距离的对比性将不复存在,其有效性大大降低。
二是维数膨胀问题 在分析高维数据过程中,碰到最大的问题就是维数的膨胀,也就是通常所说的 维数灾难 当维数越来越多时,数据计算量迅速上升,所需的空间样本数会随维数的增加而呈指数增长,分析和处理多维数据的复杂度和成本也是呈指数级增长的,因此就有必要对高维数据采用降维处理。