数据挖掘篇——特征工程之特征降维

在业界广泛流传着一句话：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

由此可见，数据和特征是多么的重要，而在数据大多数场景下，数据已经就绪，不同人对于同样的数据处理得到的特征却千差万别，最终得到的建模效果也是高低立现。从数据到特征这就要从特征工程说起了...

0. 特征工程

首先介绍下，特征工程是什么：利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程^[1.wiki]。特征工程是一个较大领域，它通常包括特征构建、特征提取和特征选择这三个子模块，重要性排序：特征构建>特征提取>特征选择。

先来介绍几个术语：

其中本文主要总结下可统一用于特征降维的特征提取和特征选择技术方法，特征构建涉及技术点较少，下回再分解。

WHAT：将高维空间的特征通过删减或变换转为低维空间特征

WHY：降低时间/空间复杂度、降低提取特征开销、降噪、提升鲁棒性、增强可解释性、便于可视化；

HOW：主要有两种方式，即特征选择和特征提取。

特征选择方法主要分为三种：

Filter：过滤式；按权重排序，不涉及到学习器，排序规则一般有方差法、相关系数法、互信息法、卡方检验法、缺失值比例法（注意受范围影响的方法需先归一化）^[2.zhihu]。

方差法：计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。可使用sklearn.feature_selection库的VarianceThreshold类来实现。
缺失值比例法：计算各个特征的缺失值比例，将缺失值比例较大的特征过滤掉。
相关系数法：计算特征与输出值的相关系数以及相关系数的 P值（常见的有：皮尔森相关系数用于数值特征的线性检验，秩相关系数用于类别特征的单调性检验）。
互信息法：计算定性特征与输出值的相关性（运用了信息熵理论），决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

Embedded：嵌入式；确定模型过程中自动完成重要特征挑选，基于惩罚项如岭回归(L2正则)、LASSO(L1正则)，基于树模型如GBDT、决策树^[3.cnblog]。
Wrapper：封装式；用学习器的性能评判不同特征子集的效果，特征子集生成方式：完全搜索（前向&后向）、启发式搜索、随机搜索^[3.cnblog]。

特征降维方法对比先介绍到这里，更多内容后续继续分解~

相关阅读:
手动封装时间选择器(只显示时分)
页面跳转问题-button 确定提交按钮
java String类型转 java.sql.time类型
Mysql 时间处理
微信-商城商品的图文/商品链接分享(后台数据合成图片+二维码生成)
np.nan 1.0 2.0 df.apply
pandas math.isnan
df.apply
pandas多条件行数据筛选
pandas cumsum/sum calc percentage

原文地址：https://www.cnblogs.com/webary/p/12498886.html