• 建模一些问题的解读


    建模tips

    1.数值型特征分箱有什么用处?

    数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。

    • 特征分箱的目的:
      • 从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。
    • 数据分桶的对象:
      • 将连续变量离散化
      • 将多状态的离散变量合并成少状态
    • 分箱的原因:
      • 数据的特征内的值跨度可能比较大,对有监督和无监督中如k-均值聚类它使用欧氏距离作为相似度函数来测量数据点之间的相似度。都会造成大吃小的影响,其中一种解决方法是对计数值进行区间量化即数据分桶也叫做数据分箱,然后使用量化后的结果。
    • 分箱的优点:

      • 处理缺失值:当数据源可能存在缺失值,此时可以把null单独作为一个分箱。
      • 处理异常值:当数据中存在离群点时,可以把其通过分箱离散化处理,从而提高变量的鲁棒性(抗干扰能力)。例如,age若出现200这种异常值,可分入“age > 60”这个分箱里,排除影响。
      • 业务解释性:我们习惯于线性判断变量的作用,当x越来越大,y就越来越大。但实际x与y之间经常存在着非线性关系,此时可经过WOE变换。
    • 特别要注意一下分箱的基本原则:

      • (1)最小分箱占比不低于5%
      • (2)箱内不能全部是好客户
      • (3)连续箱单调

     

    2.均方差为什么能做异常值检测?

    在统计学中,如果一个数据分布近似正态,那么大约 68% 的数据值会在均值的一个标准差范围内,大约 95% 会在两个标准差范围内,大约 99.7% 会在三个标准差范围内。所以我们平时用的三个标准差(均值-3*标准差)作为临界点是有依据的,但是要注意数据是否符合正太分布,或者是偏正态分布

    3.树模型是否需要对特征进行处理?

    树模型对特征的接受能力比较强,不需要对特征归一化,也不需要去相关性

    4.逻辑回归需要对特征做归一化和去相关性,以及类别型变量处理为哑变量或者其他

    • 归一化目的是让训练过程更好更快的收敛,避免特征大吃小的问题
    • 剔除相关性是由于逻辑回归对于要求变量之间是相互独立的
    • 逻辑回归不能直接接收类别型变量,需要做独热编码或者其他的

     5.如何选择模型

    当特征的iv值比较高的时候,我们可以使用逻辑回归或者决策树模型,但当数据特征iv不高,也就是和y值弱相关时,我们可以考虑使用xgboost等,当特征类别型变量特别多时,我们可以使用catboost,

  • 相关阅读:
    启动VMware出现报错:The VMware Authorization Service is not running
    CentOS8安装SQLServer2019
    CentOS8安装Tomcat
    CentOS8安装java环境
    手把手0基础Centos下安装与部署paddleOcr 教程
    redis反向代理docker容器中的rabbit mq服务
    MQTT 4 ——MQTT的Spring Mvc 配置接收字节流数据
    MQTT 3 ——MQTT与Spring Mvc整合
    MQTT 2——服务端安装与客户端测试
    MQTT 1——物联网集成项目技术选型与说明
  • 原文地址:https://www.cnblogs.com/cgmcoding/p/14448990.html
Copyright © 2020-2023  润新知