• 尚未整理【风控】互联网金融-构建评分卡模型部分知识点


    1. 模型部署方式:将模型转为PMML文件或者框架、服务器方式做接口调用。
    2. 特点是:笔数多,单笔金额小,数据维度丰富
    3. 信用评分做准入,行为评分做调额,贷中管理,或者提前催收
    4. 催收评分卡,可以预测M1转到M2的概率,M2转到M3的概率,催收回款率等
    5. 观察期与特征变量选择:一定要选择贷前就能获取的特征,一般围绕客户的还款能力、还款意愿、稳定性和多头借贷展开,还要兼顾自己的产品客群定位、用户体验、数据成本。比如产品是农户贷,那么社保、公积金、网银工资流水就是不需要获取的特征。如果产品目标是电商小商户,则电商数据就是非常有用的特征。
    6. 表现期与好坏客户定义:表现期是指放款日期至放款后逾期率开始稳定的时间段。好坏客户根据各信贷产品的应用场景不同而定,可以通过迁徙率设定(预期五天到M1,M1到M2,…一段时期的迁徙比例来决定y的0 and 1)
    7. 现金贷表现期一般一个月;消金3-6个月;信用卡是12个月
    8. 逻辑回归模型服从的前提假设:

        ①自变量不能相关,即排除自相关性,还有共线性;②变量一定要显著。③变量要独立同分布。

        所以我们要进行共线性筛查,显著性筛查,相关性筛查,才能选择出入模变量。

       9. 逻辑回归创建评分卡模型核心步骤:

        a)       变量分箱,可以排除异常值的影响,分法有等宽、等频、人工指定分箱、C4.5决策树、卡方分箱。

        b)      WOE编码。作用:排除量纲影响。计算方式是每箱好样本比例与坏样本比例的比值的自然对数。

        c)       IV值,又称为信息浓度。计算公式是每箱好样本比例与坏样本比例的差值,再乘以对应的WOE值,一般选择IV>=0.02的变量。

        d)      共线性、相关性、显著性检验。

        e)       计算每个变量对应切分点的分数。Score=A+B*ln(odds),y=logist(p)=ln(p/(1-p))=b+aX=b+coewoe

      10. 建模样本:负样本占总样本比例5%以上就行,最好是10%以上。

      11. 变量分为连续变量与分类变量的依据是: 连续变量的水平种类在10种以上,分类变量的水平种类在10种以下。

      12. 字符型分类变量转整型 为什么模型容易调用?        

      13. 字符型分类变量转为数值型方式:哑变量,WOE编码,坏样本率。

      14. 自动化分箱(最优分箱):KS分箱,卡方分箱,决策树分箱。手动分箱:WOE(ln(odds))。对样本集最优,但会忽略可解释性。

      15. 评分卡计算分数公式

      16. 评分卡模型建立完成,需要检验准确性和稳定性,还要监控

      17. 分箱,数据处理,特征衍生,有效性,分数稳定性,变量稳定性,模型调优可能比不上业务上的逻辑变量。

      18. 分箱bad rate要求单调性,其原因理解如下:

            LR本身不要求特征对目标变量具备单调性。之所以要求分箱后单调,主要是从业务角度考虑,解释、使用起来方便一点。如果有某个(分箱后的)特征对目标变量不单调,会加剧模型解释型的复杂化; 对于像年龄这种特征,其对目标变量往往是一个U型或倒U型的分布,这个是允许的

  • 相关阅读:
    洛谷P3513 [POI2011]KON-Conspiracy
    柱状图 三分法+树状数组
    CF习题集三
    CF习题集二
    CF习题集一
    单调队列总结
    SP688 SAM
    lemon使用方法
    洛谷 P2403 [SDOI2010]所驼门王的宝藏 题解
    字符串学习笔记二
  • 原文地址:https://www.cnblogs.com/likedata/p/11186609.html
Copyright © 2020-2023  润新知