• 基础特征工程经验


    基础准备

    一、风控建模分类

    1. 授信类建模
    2. 反欺诈建模

    二、反欺诈建模和授信建模的不同

    1. 什么是欺诈?什么是反欺诈?这一切都是由业务场景所决定。
    2. 反欺诈底层是什么?不仅要与相类似的数据比较,还需要与自己相比较。也即是说反欺诈的核心是在寻找与欺诈相似的同时,寻找“正常”中的异常。
    3. 怎么做?有监督,无监督,策略。

    三、无监督

    1. 图算法模型(社交网络算法、知识图谱等)
    2. 图数据库(审核策略使用)

    四、有监督

    • 确定欺诈场景。发生了什么?怎么发生?为什么发生?
    • 业务很重要。
    • 特征工程也很重要。

    变量选择

    一、图数据库

    1. 唯一且有识别度的变量,如身份证,联系人+联系人联系方式+地区组合等。
    2. 特定时间内唯一且可识别的变量,如手机号,通讯地址等。
    3. 客户id等内部专用的唯一可识别变量不可用。
    4. 模糊匹配,关联,如gps定位,ip地址等。
    5. 词汇关联,如工作单位等。

    二、有监督学习的变量选择

    • 绝对不能用的变量
    1. 由因变量映射得到的变量
    2. 内部环境才存在的变量,如客户id
    3. 建模时存在,未来确定不会存在的变量(业务)
    4. 不稳定的变量,绝大部分为空值,且bad与good分布差异不大的变量(特征工程)
    • 模型使用效果不好,策略可以使用的变量
    1. 过去存在,将来存在,但截止建模为止大部分客户数据中不存在的变量
    2. 不稳定的变量,绝大部分为空值,且bad与good分布差异很大的变量(特征工程)
    • 业务上强关联但iv并不高的变量怎么使用
    1. 在确定现时模型表现的基础上,再尝试加入。
    2. 对于未来预测影响很大的变量。

    什么是异常?

    1. 人为制造的异常不是异常。
    2. 业务可以解释的异常值并不异常。
    3. 异常:离群值,空值,与其他值显然不同的值,业务不可解释的值
    • 异常值处理
    1. 替代
    2. 归一化、标准化、log transfer等
    3. 异常极值做dummy transfer
    天才是百分之一的灵感,加百分之九十九的汗水,但那百分之一的灵感往往比百分之九十九的汗水来的重要
  • 相关阅读:
    java进程自动杀死
    线程池的取值(一)与拒绝策略
    zju 1383 Binary Numbers
    可以连续几行数,,,分别相加求和
    几个数字的和
    zju 2812 Quicksum---------hdu 2734
    rwkj 1332 C语言实验四(函数):题目1、数字根
    zju 1295 Reverse Text
    zju 1241 Geometry Made Simple
    hdu 1379 DNA Sorting
  • 原文地址:https://www.cnblogs.com/Christbao/p/14168629.html
Copyright © 2020-2023  润新知