特征选择和降维存在着联系,但是却不能把它们混为一谈。
先说说联系,当数据的维度很高时,经常伴随着数据样本稀疏、距离计算困难等问题,即所谓的“维数灾难”(curse of dimensionality)。而缓解维数灾难有两个重要的途径,也就是降维和特征选择,可以这么认为,特征选择和降维的目标都是降低数据特征维数。
但是特征选择和降维的方式是不一样的。
特征选择仅仅是从高维数据的特征中选择其中一部分特征作为特征集,举例来说,原始数据集有10000个特征,我们从中选择500个特征用于训练,剩下的9500个特征被我们抛弃掉,可以看出来特征选择之后的特征是原始数据特征的一个子集,并且我们保留的500个特征是没有发生过任何改变的。
而降维的实质是将高维数据看成高维的特征空间,再将其映射到低维度的特征空间。为什么能降维呢?这是因为人们获取到的数据虽然是高维的,但是与学习任务密切相关的也许仅是某个低维分布,即高维空间中的一个低维“嵌入”。仍然举刚才的例子,10000个特征的高维特征空间被映射到了500个特征的低维空间,但是在这种情况下,这500个特征是根据映射关系得到的新的500个特征,只是保留了原始数据中10000个特征的某些性质,却不是原始特征集的子集,并没有抛弃掉任何特征。