• Python风控信用评分卡 (part 1)


    时值蚂蚁上市之际,马云在上海滩发表演讲。马云的核心逻辑其实只有一个,在全球数字经济时代,有且只有一种金融优势,那就是基于消费者大数据的纯信用!

    我们不妨称之为数据信用,它比抵押更靠谱,它比担保更保险,它比监管更高明,它是一种面向未来的财产权,它是数字货币背后核心的抵押资产,它决定了数字货币时代信用创造的方向、速度和规模。一句话,谁掌握了数据信用,谁就控制了数字货币的发行权!

    数据信用判断依靠的就是金融风控模型。更准确的说谁能掌握风控模型知识,谁就掌握了数字货币的发行权!信用评分卡是风控模型中最常见的模型,基于线性算法和sigmoid函数二分类,可以实现自动预测坏客户概率和变量量化分析,有利于高层领导决策。

    信用危机时代的信用评分卡

    随着我国居民消费心理发生改变和各大商家诱导性消费,不少朋友越来越依赖超前消费了。我国14亿人口,消费群体庞大,各类产品也有着很大的市场,于是现在的消费信贷市场成了很多银行或者其他机构发力的方向。根据央行公布的数据来看,商业银行发行的信用卡数量继续扩张,但在“滥发”信用卡的背后,逾期坏账不断增加也成了银行头疼问题。

    信用卡逾期半年以上坏账突破900亿

    近日,央行公布了三季度支付体系的运行报告,从央行公布的数据来看,我国商业银行发行的信用卡数量、授信总额以及坏账总额均在保持增长。

    数据显示,截至今年三季度末,我国商业银行发行的信用卡(包括借贷合一卡)的数量达到了7.66亿张,环比增加1.29%。总授信额度达到了18.59万亿元,环比增加3.80%。

    下卡量在增加,加上授信总额在不断增长,说明银行依旧非常重视信用卡市场,但同时这也给银行带来了不小的麻烦。因为截至今年三季度末,信用卡逾期半年以上的坏账来到了906.63亿元,环比大涨6.13%。

    信用卡下卡数量不断增加,说明在初审阶段银行并没有管理的太严格,因此坏账增加是客观会存在的问题。但作为专业的金融机构,银行显然是不会坐视坏账继续涨下去,不然就会影响到银行的正常经营,也会引起监管层的注意。

    所以在这种情况下面,商业银行会对已经下卡的客户进行管理,一般是在消费场景以及防范套现上面下功夫。所以为了你不被银行二次风控,从而对你的信用卡封卡降额,一些不合规的刷卡消费最好还是别碰。

    银行风控负责人改如何应对持续上升信用卡坏账?作者认为识别坏客户(骗贷和还款能力不足人群)是关键。只有银行精准识别了坏客户,才能显著降低逾期和坏账率。

    之前银行是当铺思想,把钱借给有偿还能力的人。这些人群算是优质客群。更糟糕的是但随着量化宽松,财政货币刺激,M2激增,银行,消费金融公司,小额贷公司纷纷把市场目标扩大到次级客户,即偿还能力不足或没有工作的人,这些人还钱风险很高,因此借钱利息也很高。

    国内黑产,灰产已经形成庞大产业链条。下图是生产虚假号码的手机卡,来自东南亚,国内可用,可最大程度规避国内安全监控,专门为线上平台现金贷诈骗用户准备。,如果没有风控能力,就不要玩现金贷这行了。放款犹如肉包子打狗有去无回。

    举个身边熟悉例子,作者在之前某宝关键词搜索中,可以发现黑产和灰产身影。

     关键词:

    注册机,短信服务,短信接收,短信验证,app下单,智能终端代接m

    信用评分卡可以成为贷款人和借款人计算借款人偿债能力的绝佳工具。对于贷方而言,评分卡可以帮助他们评估借款人的风险,识别是否是骗贷用户或还款能力不足用户,并帮公司维持健康的投资组合 - 这最终将影响整个经济。

    模型就像一个黑箱,当用户申请贷款时,模型会根据用户信息,例如年龄,工作,职位,还款记录,借贷次数等维度自动计算客户坏客户概率。业务线如果用模型计算出某用户坏客户概率较高,例如0.8,就会拒绝改客户贷款申请。

    因此风控模型就像信贷守护神,保护公司资产,免受黑产吞噬。

    在下面的系列中,我们将探讨从业者开发和维护逻辑回归平分卡的方法。机器学习最常见应用是回归和分类。信用评分卡的就属于统计学和机器学习的分类器问题。分类问题提供了一个极其广泛的方法/思维过程,具有多个业务应用程序。分类问题在社会的应用是:

    •应用程序或信用评分卡,用于评估借款人的还款风险,识别好坏客户,精准识别那些骗贷申请单或还款能力不足申请单

    评分卡模型不仅仅局限于金融领域,其它应用还包括
    •医学领域,MRI核磁共振的图像分析,以确定癌症是仁慈的还是恶性的
    •行为模型,用于识别客户最可能的未来行为
    •鉴定蛋白质结构中的潜在药物靶标
    •欺诈检测模型
    •推文和Facebook帖子的情绪分析
    •交叉/向上销售倾向模型
    •活动响应模型
    •保险评级

    就此而言,信用记分卡与上述其他模型之间存在微妙的联系。这些模型的细节可能截然不同,但这些模型的强调理念与分类问题有关。在本系列中,我将重点介绍信用评分卡方法,但会尝试尽可能引入其他记分卡和模型。

    评分卡主要流程:

    样本数据开发--模型开发--拒绝引用-评分卡制作和预测

    后续文章的流程
    该系列中后续文章的流程如下

    1. 分类问题和抽样
      2.变量选择和粗略分类
      3.预测模型
      4.逻辑回归和记分卡
      5.模型验证
      6.应用程序和业务流程集成

      。。。。。。。。。。

    信用记分卡的书籍
    在编写分析记分卡时,我编制了一份您可能会发现有用的书籍清单。这些书中的前四本或多或少都有相同的流程,而安德森的书(#4)更为详细。但是,您可以选择这四本书中的任何一本,而不会损失太多。最后一本书(#5)是一组由从业者和学者组成的文章/论文,非常有趣。

    1. Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring – Naeem Siddiqi
    2. Credit Scoring, Response Modeling, and Insurance Rating: A Practical Guide to Forecasting Consumer Behavior – Steven Finlay
    3. Credit Scoring for Risk Managers: The Handbook for Lenders – Elizabeth Mays and Niall Lynas
    4. The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation – Raymond Anderson
    5. Credit Risk Models – Elizabeth Mays

    这本书有些年代了,但里面的理论讲的非常基础和具体。大家不一定要去记住书里sas代码,SAS代码逻辑可以看看了解一下。书里有些理论也不要去死记硬背,实际应用有一定弹性。

    SAS代码之前被传统银行使用较多,现在使用范围很窄,不是每个同学都能去银行工作。

    目前流行的是Python代码。

    Python代码被大中小企业同时运用,包括银行的创新事业部也在使用。

    如果大家想了解如何用Python实现逻辑回归信用评分卡,

    欢迎各位同学学习python信用评分卡建模(附代码),腾讯课堂和网易云课堂入口分别如下(微信二维码扫一扫):

    (腾讯课堂新营业,报名可领取20元优惠券)

     

    如果想从事Python风控模型或数据分析岗位,可以系统性学习这类课程。我推荐python金融风控评分卡模型和数据分析微专业课。

    腾讯课堂和网易云课堂入口分别如下(微信二维码扫一扫):

    (腾讯课堂新营业,报名可领取20元优惠券)

    此微专业课包含《python信用评分卡建模(附代码)》,《python风控建模实战lendingClub》,《金融现金贷用户数据分析和画像》三套课程系列,共计250节课左右,录制时间超过3年,定期更新。这套微专业课程是互联网上最全,最专业的python信贷建模教程。视频教学可以弥补书籍不足,生动形象为大家展示风控模型的奥义。书籍还有不足的是写的太死,实际风控模型应用中,有一定弹性。这好比经验丰富医生不完全遵循书籍指导。我在视频教程中也会分享多年风控模型经验给各位学员。

     

    下面是子课程介绍:

    《python信用评分卡建模(附代码)》:360度讲解python信用评分卡构建流程,附代码和老师答疑。弥补网上信息参差不齐短板

    《python风控建模实战lendingClub》此课程是针对集成树模型,包括catboost,lightgbm,xgboost。这两个课程算法原理是不同的。

    此课程catboost集成树算法有诸多优点,自动化处理缺失数据,自动化调参,无需变量卡方分箱。学员学完后不再为数据预处理,调参,变量分箱而烦恼。此教程建立型性能卓越,最高性能ks:0.5869,AUC:0.87135,远超互联网上其它建模人员性能。

    《金融现金贷用户数据分析和画像》:此课程用python代码对LendingClub平台贷款数据分析和用户画像,针对银行,消费金融,现金贷等场景,教会学员用python实现金融信贷申请用户数据分析。项目采用lendingclub 12万多条真实信贷数据,包括用户年收入,贷款总额,分期金额,分期数量,职称,住房情况等几十个维度。通过课程学习,我们发现2019年四季度时候,美国多头借贷情况非常严重,为全球系统性金融危机埋下种子。

    另外我还推荐贾俊平老师的统计学书籍。我在从事数百个模型项目中,发现很多建模人员统计学知识不牢靠,很多底层统计原理搞不清楚,建造的模型存在很多问题。例如变量相关性问题搞不清楚,模型维度搞不清楚,线性模型变量筛选不符合分布原理。书里用的spss软件,大家可以不用spss,效率太低,用Python可以自动化建模。重点是各位学员把书里统计学原理搞清楚。

    贾俊平老师的统计学书籍写的比较教材化,读着有点枯燥。如果大家想以看小说形式了解统计学,不妨可以再看看这本书《赤裸裸的统计学》,非常通俗易懂和有趣,我之前看的哈哈大笑。

    最后,我推荐《不抱怨的世界》,这本书很好,我读过几遍。

    大家可能会问这和Python风控模型,评分卡有何关系?你们以后工作就知道了,数据科学充满快乐和枯燥,没有坚韧毅力和逆境生存能力,很难走远,可能中途放弃。电影太极张三丰里,师傅送给张三丰一本书籍用于静心养神,张三丰并没认真研读。后来偶然机会,发现其中奥秘,学习了致胜武功法宝,打败了仇敌,成为一代宗师。其中一句很经典台词是放下包袱,奔向新生。大家有空也可去看看这部电影。

    最后,提醒各位学员注重道德修养,工具具有两面性,可做善,也可作恶。适当信贷可缓解市场资金流动性,扶持民营企业;任意放贷+资产证券化+高杠杆=系统性金融危机,类似2008年美国次贷危机。今后你们可能走向金融高管职位,你们一定要记住防范这个系统性金融风险。

    最后祝大家学业有成,事业有成。祝福你们的Toby老师!

  • 相关阅读:
    java mybatis 新增记录 与 insertSelective 保存问题
    01 开发环境搭建
    2021年:系列文章总结
    在win10上安装MTK驱动(附驱动下载链接)
    Gerrit 大量代码提交流程优化
    mysqldump的使用
    配置 Gerrit 迁移
    解决:编译安卓源码时 JDK 报错 error='Not enough space' (errno=12)
    修改Git Commit提交记录的用户名Name和邮箱Email
    Android 各层架构
  • 原文地址:https://www.cnblogs.com/webRobot/p/14089289.html
Copyright © 2020-2023  润新知