• 第五章 逻辑回归模型在评分卡开发中的应用


    逻辑回归模型在评分卡开发中的应用

    课程简介:在分类场景中,逻辑回归模型是常用的一类算法。它具有结构简单、可解释性强、输出结果是"软分类"的特点。评分模型多采用这类算法。同时逻辑回归模型也面临一些限制,因此在特征工程阶段我们对输入特征做了相应的调整和约束。

    目录:

    • 逻辑回归模型的基本概念
    • 基于逻辑回归模型的评分卡构建工作
    • 尺度化

    1. 逻辑回归模型的基本概念

    • 伯努利概型

    在分类模型中,目标变量是离散、无序型的变量。例如,违约预测模型中的目标变量(也称为标签)是{违约,非违约}。线性回归模型无法对这类标签进行建模,因为线性回归模型的结果的取值空间是整个实数空间.对于分类模型而言,我们建模的对象是每个类别在某条样本上出现的概率。

    伯努利概型

    某个事件有"发生"与"不发生"两种互斥的状态。假设该事件发生的概率为,不发生的概率即为.我们用1和0表示事件的发生与不发生,则有:

    可以统一成

    逻辑回归模型与logistic变换

    在违约预测场景中,单个个体的违约事件可以看成伯努利概型:

    参数即是我们需要预测的目标。

    如果对概率做拟合?

    概率的取值范围是0~1.如前所述,线性回归的目标变量的取值空间是整个实数空间,因此不适合用线性回归模型做预测。引入下面的logistic变换(也称为sigmoid函数),能够是的拟合的目标函数的取值范围限定在0~1:

    逻辑回归模型与logistic变换(续)

    的特点

    • 单调性,即>
    • 有界性,即
    • 可导性,即

    除此之外,还有一个计算上的优势,即

     

    • 逻辑回归模型与logistic变换(续)

    由于logistic变换有上述种种优点,我们将该变换应用在概率的刻画当中:

    其中分别表示第i个观测值上p个特征的取值和特征的权重。

    于是整个逻辑回归模型的形式为:

    需要注意的是,这里的回归模型是对违约概率做回归,而非对违约结果{0,1}做回归。

    • 参数估计

    通常用极大似然估计法(MLE)求出逻辑回归的参数

    对于样本,逻辑回归模型的似然函和对数似然函数分别为

    参数估计的结果是为了让似然函数最大化。由于对数似然函数与似然函数单调上升且具有更紧凑的形式,同时也易于求导运算,因此将似然函数最大化转化为对数似然函数最大化,即

    对求偏导,结果是

    显然,的方程是没有解析解的。

    无法得到解析解的情况下,只能通过数值求解的方式来计算参数的估计。常用梯度上升法来迭代地计算。基本的算法步骤如下:

    1. 初设化参数和步长
    2. 计算当前梯度:

    1. 更新参数:

    1. 直至满足终止条件

    注:

    根据计算梯度使用的样本量的多少,梯度上升法分为批量梯度上升法、随机梯度上升法与小批量梯度上升法。

    • 逻辑回归模型的优点

    结构简单:

    • 变量之间的关系是线性可加关系

    可解释性高:

    • 结构简单;输入变量对目标变量的影响是容易获得的

    支持增量训练:

    • 无需读入全部数据,可增量式地读取数据、训练模型

    给出概率而非判别类别:

    • 模型的结果是估计出属于某一类的概率,可用于更加复杂的决策

    工程化相对容易:

    • 模型的测试、部署、监控、调优等工作相对简单

    逻辑回归模型的不足

    预测精度一般

    •     由于模型结构较为简单,导致预测精度不如其他模型

    对变量要求高

    •     输入变量需数值类型,需要对非数值变量进行编码
    •     不能容忍缺失值,需要对缺失值做处理
    •     对异常值敏感,需要对异常值做处理
    •     变量尺度差异较大时,容易对模型有影响,需要做变量归一化
    •     变量间的线性相关性对模型有影响,需要做变量挑选或加上正则项

    2.基于LR模型的评分卡构建工作

    逻辑回归模型对变量的要求

    当用逻辑回归模型来构建评分卡时,入模变量需要满足以下条件

    1. 变量间不存在较强的线性相关性和多重共线性
    2. 变量具有显著性
    3. 变量具有合理的业务含义,即变量对于风控业务是正确的

    其中,第1点已经在单变量分析与多变量分析中得到一定的约束,但是未必充分。

    关于第2点,需要从系数的p值进行检验

    关于第3点,需要从系数的符号进行检验

    • 变量显著性

    为了获取与目标变量(即违约标签)有较高相关性的变量,我们要求最终入模的变量的系数的p值很小,例如低于0.1。如果发现模型中某些变量不显著,需要检验一下两种可能性:

    1. 该变量本身不显著
    2. 该变量显著,但是由于有一定的线性相关性或者多重共线性,导致该变量在多元回归下不显著

    先检验1的可能性,如果排除,再检验2.

    检验1的方法:

    将该变量单独与目标变量做逻辑回归模型,如果在单变量回归的情况下系数的p值仍然较高,即表明该变量本身的显著性很低。

    注:

    对于IV较高的变量,1的可能性较低。

    • 变量正确性

    在WOE的计算公式中,

    当WOE为负时,表明当前箱的"危险性"高于平均样本的"危险性",出现坏样本的概率更高。因此在逻辑回归模型中,所有变量对应的系数应该为负。

    反之,如果采取的WOE的计算公式为:

    同理,所有变量对应的系数应该为正。

    • 逻辑回归模型对变量的要求(续)

     

    • 特征选择

    从上述的单变量回归中可以发现,在full regression中,不显著、不正确的变量是由于线性相关性引起的。因此需要在做一次变量挑选。变量挑选的目的是为了满足:

    1. 入模变量正确并且显著
    2. 入模变量的"重要性"是最高的

    其中,我们可以用IV来衡量入模变量的重要性。

    综上,变量挑选的步骤如下:

    1. 将变量根据IV进行降序排列,不妨设为,其中""代表重要性的次序
    2. 当前的入模变量集合为{}
    3. 从剩余的变量中挑选第一个变量放入上一步的集合中,建立回归模型。如果该模型的所有的变量都满足p值小于阈值、系数为负,则在入模变量集合中保留该变量,否则剔除
    4. 遍历所有变量

     

    • 尺度化

    得到符合要求的逻辑回归模型后,通常还需要将概率转化成分数。分数的单调性与概率相反,即分数越高表明违约的概率越低,信用资质越好。在评分卡模型中,上述过程称为"尺度化",转换公式为:

    其中,, : point to double odds

    PDO的作用

    假设当前的好坏比为, 对应的分数为.

    当好坏比上升一倍时变为2, 即=y-ln2, 此时分数变为

    因此,PDO的含义即为,当好坏比上升1倍时,分数上升PDO个单位。

    Base Point的选择

    要满足所有的评分的取值为正。

  • 相关阅读:
    CrawlSpiders
    从抓取Tencent中学习Scrapy
    对象返回规范的url的两种方式的两种方式
    多对多关系的额外字段
    Django定时任务
    Scripy学习(一)
    Django开发博客一(搭建模型和准备数据)
    求并集
    求子集、交集
    java数学函数Math类中常用的方法
  • 原文地址:https://www.cnblogs.com/wuxiping2019/p/12966252.html
Copyright © 2020-2023  润新知