高维数据分析的困难

在实际应用过程中人们经常会碰到各种类型的海量数据,如各种贸易交易数据基因表达数据文档词频数据用户评分数据 WEB使用数据及多媒体数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高,这些数据在统计处理中通常称为高维数据。

我们所处的空间是3维的,在3维或以下空间人类可以有比较直接的认知,例如,一个点是0维,一条直线是1维的,一个正方形是2维的,一个立方体是3维的,但到了4维以上就很难用简单直观的图来表示,不能用直接感知的普通方式对其思考,因此直观描述高维数据是一件比较困难的事情。

在分析高维数据时,存在以下两个主要困难：

一是欧氏距离问题在2~10维的低维空间中欧氏距离是有意义的,可以用来度量数据之间的相似性,但在高维空间就没有太大意义了由于高维数据的稀疏性,将低维空间中的距离度量函数应用到高维空间时,随着维数的增加,数据对象之间距离的对比性将不复存在,其有效性大大降低。

二是维数膨胀问题在分析高维数据过程中,碰到最大的问题就是维数的膨胀,也就是通常所说的维数灾难当维数越来越多时,数据计算量迅速上升,所需的空间样本数会随维数的增加而呈指数增长,分析和处理多维数据的复杂度和成本也是呈指数级增长的,因此就有必要对高维数据采用降维处理。

相关阅读:
Flux 是什么？
看深度学习框架排名第一的TensorFlow如何进行时序预测！
时间序列ARIMA模型预测方法，及相关函数使用方法介绍
解决MATLAB在K-means提示“KMEANS does not accept complex data.”错误
机器学习——朴素贝叶斯分类器
K-近邻分类法及tabulate、rng、categorical、varfun、discretize函数用法介绍
灰色预测模型及MATLAB实例
数学建模——预测模型简介
支持向量机（SVM）MATLAB 实例讲解，及选择训练方式使误差率尽可能减为0
批量修改文件后缀名，文件批量排序

原文地址：https://www.cnblogs.com/jiangkejie/p/13453364.html