特征选择(feature selection)或者变量选择(variable selection)是在建模之前的重要一步。数据接口越来越多的今后,数据集的原始变量、衍生变量会越来越多,如何从中选取subset适用到模型之上在实际数据应用中十分重要。
信息值information value用来做特征选择最常用在计算信用评分卡时,是用来表示每一个变量对目标变量来说有多少“信息”的量。
对于一个分类变量性别,其计算过程如下:
Group | Good | Bad | pctlGood | pctlBad | WoE | MIV |
女 | 325 | 19 | 36.89% | 31.15% | 0.1692 | 0.0097 |
男 | 556 | 42 | 63.11% | 68.85% | -0.0871 | 0.0050 |
IV | 0.0147 |
其中,
例中性别变量的信息值为0.0147,表示性别对目标变量的预测能力非常弱。
一般说来,信息值0.02以下表示与目标变量相关性非常弱。0.02-0.1很弱;0.1-0.3一般;0.3-0.5强;0.5-1很强。
使用信息值最大的优点是简单快速。缺点包括:对于数值型变量需要分类预处理;无法确定iv值在多少以上便保留变量;无法识别相关性强的变量,可能同时保留造成冗余;无法识别变量间关系。
Reference: