1.极端值的识别
极端值的来源无非是数据差错和数据差异。
大多数情况下,极端值被删除或者被重置。但是,当极端值的观测量很大时,需要考虑分群(segments),ie.针对每个群开发独立的评分卡。
识别方法如下:
- 设定正常的取值范围
- 考虑数据的多元属性,建立拟合模型,偏离模型值为极端值
- 聚类算法
- 依靠决策树发现包含少量观测值的持续节点。这取决于一个好的交互式决策树软件和对数据进行可视化探索的可能。
2.用SAS实现对极端值的识别
- 计算出均值和标准差之后,调用宏%extremes
/* identifying outliers using the mean and three standard deviations */
%extremes(dsin,varx,idvar,nsigma,dsout);
/* 输入数据集,被分析变量,ID变量,标准差倍数,输出数据集 */
- K-均值聚类识别 (考虑了数据的多元特征)
/* 宏%clustol用proc fastclus创建总计为nclust的簇,参数pmin被设定一个簇中的观测值相对于数据集总体的百分比。大多数风险评分实践中,被设定为0.05~0.10 */
%ClustOL (&dsin,&varlist,&NClust,&Pmin,&DSout);
/* 输入数据集,变量列表,簇的数量,簇的最大规模,输出数据集 */
- 多级别识别
ie.首先单变量分析识别极端值,然后聚类在多元特征上识别极端值
3.极端值的处理
- 考虑分群处理 (极端值数量很多)
- 删除
- 用一些单变量统计量替代(缺点:有偏)
- 多重归因? (proc MI)