数据挖掘之特征选择

数据挖掘之特征选择

1、去掉取值变化小的特征。

如某个特征取值为0，1，在样本中存在95%的取值为1，那么这个特征的作用不大

2、单变量特征的选择。

Pearson相关系数：权衡的是变量之间的线性相关性。它要求两个变量的变化是单调的，如y1=x和y2=x^2,Pearson系数为0，但其实两者并不是独立的。取值方位为：[-1,1]，且可表征更加丰富的关系。负数表示负相关，正数表示正相关，0表示独立

距离相关系数：可以克服Pearson相关系数的弱点，但其计算速度没有Pearson快

基于学习模型的特征排序：直接使用你要用的机器学习算法，针对每个独立的特征和响应变量建立预测模型。对于非线性的，多采用树的方法。树的深度越深，则容易产过拟合。有些机器学习模型本身就对特征进行打分的机制(属于Wrapper)，如回归模型、SVM、决策树、随机森林等。

特征越独立，模型训练的结果也会越来越好。

3、线性模型和正则化

越是重要的特征在模型中对应的系数就越大，不重要的特征系数接近0.

正则化就是把额外的约束或惩罚项加到已有的模型（损失函数）上，以防止过拟合并提高泛化能力。即损失函数由原来的E（x,y）变为E(X,Y)+alpha||W||

L1正则化/Lasso：惩罚项系数是1次，由于正则项非零，则是的那些弱特征所对应的系数变成0，因此正则化往往会使学到的模型很稀疏，这个特点使得L1正则化成为一种很好的特征选择方法。

L2正抓/Ridge regression：惩罚项系数是2次方，它会使得系数的取值变得均匀。

随机森林：准确率高、鲁棒性好、易于使用。
这里特征得分实际上采用的是 Gini Importance 。使用基于不纯度的方法的时候，要记住：
1、这种方法存在偏向，对具有更多类别的变量会更有利；
2、对于存在关联的多个特征，其中任意一个都可以作为指示器（优秀的特征），并且一旦某个特征被选择之后，其他特征的重要度就会急
剧下降，因为不纯度已经被选中的那个特征降下来了，其他的特征就很难再降低那么多不纯度了，这样一来，只有先被选中的那个特征重要度很高，其他的关联特征重要度往往较低。在理解数据时，这就会造成误解，导致错误的认为先被选中的特征是很重要的，而其余的特征是不重要的，但实际上这些特征对响应变量的作用确实非常接近的（这跟Lasso是很像的）。特征随机选择方法稍微缓解了这个问题，但总的来说并没有完全解决。

正则化的线性模型对于特征理解和特征选择来说是非常强大的工具。L1正则化能够生成稀疏的模型，对于选择特征子集来说非常有用；相比起L1正则化，L2正则化的表现更加稳定，由于有用的特征往往对应系数非零，因此L2正则化对于数据的理解来说很合适。由于响应变量和特征之间往往是非线性关系，可以采用basis expansion的方式将特征转换到一个更加合适的空间当中，在此基础上再考虑运用简单的线性模型。

随机森林是一种非常流行的特征选择方法，它易于使用，一般不需要feature engineering、调参等繁琐的步骤，并且很多工具包都提供了平均不纯度下降方法。它的两个主要问题，1是重要的特征有可能得分很低（关联特征问题），2是这种方法对特征变量类别多的特征越有利（偏向问题）。尽管如此，这种方法仍然非常值得在你的应用中试一试
相关阅读:
【转】动态模型及其求解介绍–番外篇
 【转】动态模型及其求解介绍—下
 Belief propagation
隐马尔科夫模型(Hidden Markov Models) 系列之一
 隐马尔科夫模型(Hidden Markov Models) 系列之四
 【PGM】factor graph，因子图，势函数potential function，Template models
词语搭配系统
 PHP Catalan数的几个应用
 PHP 求链表并集
 PHP 输入n，判断从1~n序列中十进制数里1出现的次数
原文地址：https://www.cnblogs.com/liang2713020/p/6797078.html