一、特征的分类
1. 相关特征:对当前学习任务有用的属性。
2. 无关特征:对当前学习任务没有用的属性。
3. 冗余特征:包含的信息能从其他特征中推演出来,冗余特征有时候不起作用,有时候则是有益的,对应了学习任务所需的“中间变量”。
二、特征选择
1. 概念:从给定的特征集合中选择出相关特征的子集的过程。
2. 为什么要进行特征选择?
(1)减轻维数灾难问题
(2)降低学习任务的难度
3. 处理高维数据的两大主流技术:特征选择和降维
4. 特征选择的简单描述
从初始的特征集合中产生一个“候选子集”,评价他的好坏,基于评价结果产生的下一个候选子集,再对其进行评价,循环进行直到无法找到更好的候选子集为止。
5. 两个关键环节:
(1)“子集搜索”问题——如何根据评价结果获取下一个候选子集?
前向搜索、后向搜索、双向搜索;都是基于贪心的策略。
(2)“子集评价”问题——如何评价候选子集的好坏?
计算信息增益、计算信息熵、其他能划分差异的机制……
6. 将特征子集搜索和子集评价机制相结合,即可得到特征选择方法。
三、特征选择方法分类
常见的特征选择方法大致分为三类:过滤式、包裹式、嵌入式。
1. 过滤式选择(filter)
过滤式方法先对数据集进行特征选择,再训练学习器,特征选择过程与后续学习器无关。
Relief是一种著名的过滤式特征选择方法,设计了一种相关统计量来度量特征重要性。 适用于二分类问题。
2. 包裹式选择(wrapper)
与过滤式机器学习不考虑后续学习器不同,包裹式特征选择直接把最终要使用的学习器性能作为特征子集的评价标准。
由于包裹式特征选择的方法直接针对给定学习器进行优化,包裹式特征选择比过滤式要好,计算开销也要大得多。
LVW是一种典型的方法。采用随机策略搜索特征子集,而每次特征子集的评价都需要训练学习器,开销很大。
3. 嵌入式选择(embedding)
嵌入式特征选择将特征选择过程和机器训练过程融合为一体。两者在同一优化过程中完成,即在学习器训练过程中自动进行了特征选择。
w取得稀疏解意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中,于是求解L1范数正则化的结果是得到了仅采用一部分初始特征的模型;换言之,基于L1正则化的学习方法就是一种嵌入式选择方法。