3.6评分卡极端值的识别以及处理

1.极端值的识别

极端值的来源无非是数据差错和数据差异。

大多数情况下，极端值被删除或者被重置。但是，当极端值的观测量很大时，需要考虑分群（segments）,ie.针对每个群开发独立的评分卡。

识别方法如下：

2.用SAS实现对极端值的识别

/* identifying outliers using the mean and three standard deviations */

%extremes(dsin,varx,idvar,nsigma,dsout);

/* 输入数据集，被分析变量，ID变量，标准差倍数，输出数据集 */

/* 宏%clustol用proc fastclus创建总计为nclust的簇，参数pmin被设定一个簇中的观测值相对于数据集总体的百分比。大多数风险评分实践中，被设定为0.05~0.10 */

%ClustOL (&dsin,&varlist,&NClust,&Pmin,&DSout);

/* 输入数据集，变量列表，簇的数量，簇的最大规模，输出数据集 */

ie.首先单变量分析识别极端值，然后聚类在多元特征上识别极端值

3.极端值的处理

相关阅读:
fms服务器端呼叫客户端
Linux C取整的方法
fms客户端呼叫服务器端
Tree Control DataProviders
IE7下的css style display的兼容处理
Maxthon,TheWorld,MyIE等多标签浏览器的Flash缓存问题
Android深入浅出系列之实例应用—弹出消息Toast对象的使用纯文本方式（一）
C#温故而知新学习系列之XML编程—Xml读取器XmlReader类（二）
一步一个脚印学习WCF系列之WCF概要—生成元数据与代理（五）
Eclipse 常用快捷键（转）

原文地址：https://www.cnblogs.com/jane-lau/p/8458924.html