用信息值进行特征选择(Information Value)

用信息值进行特征选择(Information Value)

Posted by c cm on January 3, 2014

特征选择（feature selection）或者变量选择(variable selection)是在建模之前的重要一步。数据接口越来越多的今后，数据集的原始变量、衍生变量会越来越多，如何从中选取subset适用到模型之上在实际数据应用中十分重要。

信息值information value用来做特征选择最常用在计算信用评分卡时，是用来表示每一个变量对目标变量来说有多少“信息”的量。

对于一个分类变量性别，其计算过程如下：

Group Good Bad pctlGood pctlBad WoE MIV

女 325 19 36.89% 31.15% 0.1692 0.0097

男 556 42 63.11% 68.85% -0.0871 0.0050

IV 0.0147

其中，

$WoE = ln(pctlGood/pctlBad)$

$MIV = WoE * (pctlGood - pctlBad)$

$IV = sum MIV$

例中性别变量的信息值为0.0147，表示性别对目标变量的预测能力非常弱。

一般说来，信息值0.02以下表示与目标变量相关性非常弱。0.02-0.1很弱；0.1-0.3一般；0.3-0.5强；0.5-1很强。

使用信息值最大的优点是简单快速。缺点包括：对于数值型变量需要分类预处理；无法确定iv值在多少以上便保留变量；无法识别相关性强的变量，可能同时保留造成冗余；无法识别变量间关系。

Reference:

Building Credit Scorecards Using Credit Scoring for SAS
Characteristics Selection Using Information Value
相关阅读:
行锁原理天高地厚
 unity c#
（转）C#导出Excel源码
 c#.net]做tooltip给控件动态添加属性的做法、IExtenderProvider接口的使用
 自定义提供程序控件
 在C#中使用SQLite
哈佛大学凌晨4点半的景象
 (转)SQLServer常见查询问题
 .NET组件编程
 窗体着色
原文地址：https://www.cnblogs.com/sddai/p/6113992.html

Group	Good	Bad	pctlGood	pctlBad	WoE	MIV
女	325	19	36.89%	31.15%	0.1692	0.0097
男	556	42	63.11%	68.85%	-0.0871	0.0050
					IV	0.0147