1、特征选择:指从全部特征中选取一个特征子集,使得使构造出来的模型效果更好,推广能力更强。如何做特征选择呢,如果要从全部特征中选择一个最优的子集,使得其在一定的评价标准下,在当前训练和测试数据上表现最好。
2、PCA:即主成分分析方法,是一种使用最广泛的数据压缩算法。在PCA中,数据从原来的坐标系转换到新的坐标系,由数据本身决定。转换坐标系时,以方差最大的方向作为坐标轴方向,因为数据的最大方差给出了数据的最重要的信息。第一个新坐标轴选择的是原始数据中方差最大的方法,第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向。重复该过程,重复次数为原始数据的特征维数。
二、并用自己的话阐述出两者的主要区别
答:
区别:特征选择是从包含多个特征的数据集中挑选出几个特征作为实际使用的数据集,用于训练模型。没有改变特征的形式。而PCA是用于减少数据集的维度,同时保持数据集中使方差贡献最大的特征。改变了原来特征的形式。