- 模型部署方式:将模型转为PMML文件或者框架、服务器方式做接口调用。
- 特点是:笔数多,单笔金额小,数据维度丰富
- 信用评分做准入,行为评分做调额,贷中管理,或者提前催收
- 催收评分卡,可以预测M1转到M2的概率,M2转到M3的概率,催收回款率等
- 观察期与特征变量选择:一定要选择贷前就能获取的特征,一般围绕客户的还款能力、还款意愿、稳定性和多头借贷展开,还要兼顾自己的产品客群定位、用户体验、数据成本。比如产品是农户贷,那么社保、公积金、网银工资流水就是不需要获取的特征。如果产品目标是电商小商户,则电商数据就是非常有用的特征。
- 表现期与好坏客户定义:表现期是指放款日期至放款后逾期率开始稳定的时间段。好坏客户根据各信贷产品的应用场景不同而定,可以通过迁徙率设定(预期五天到M1,M1到M2,…一段时期的迁徙比例来决定y的0 and 1)
- 现金贷表现期一般一个月;消金3-6个月;信用卡是12个月
- 逻辑回归模型服从的前提假设:
①自变量不能相关,即排除自相关性,还有共线性;②变量一定要显著。③变量要独立同分布。
所以我们要进行共线性筛查,显著性筛查,相关性筛查,才能选择出入模变量。
9. 逻辑回归创建评分卡模型核心步骤:
a) 变量分箱,可以排除异常值的影响,分法有等宽、等频、人工指定分箱、C4.5决策树、卡方分箱。
b) WOE编码。作用:排除量纲影响。计算方式是每箱好样本比例与坏样本比例的比值的自然对数。
c) IV值,又称为信息浓度。计算公式是每箱好样本比例与坏样本比例的差值,再乘以对应的WOE值,一般选择IV>=0.02的变量。
d) 共线性、相关性、显著性检验。
e) 计算每个变量对应切分点的分数。Score=A+B*ln(odds),y=logist(p)=ln(p/(1-p))=b+aX=b+coewoe
10. 建模样本:负样本占总样本比例5%以上就行,最好是10%以上。
11. 变量分为连续变量与分类变量的依据是: 连续变量的水平种类在10种以上,分类变量的水平种类在10种以下。
12. 字符型分类变量转整型 为什么模型容易调用?
13. 字符型分类变量转为数值型方式:哑变量,WOE编码,坏样本率。
14. 自动化分箱(最优分箱):KS分箱,卡方分箱,决策树分箱。手动分箱:WOE(ln(odds))。对样本集最优,但会忽略可解释性。
15. 评分卡计算分数公式
16. 评分卡模型建立完成,需要检验准确性和稳定性,还要监控
17. 分箱,数据处理,特征衍生,有效性,分数稳定性,变量稳定性,模型调优可能比不上业务上的逻辑变量。
18. 分箱bad rate要求单调性,其原因理解如下:
LR本身不要求特征对目标变量具备单调性。之所以要求分箱后单调,主要是从业务角度考虑,解释、使用起来方便一点。如果有某个(分箱后的)特征对目标变量不单调,会加剧模型解释型的复杂化; 对于像年龄这种特征,其对目标变量往往是一个U型或倒U型的分布,这个是允许的