• 非均衡数据分布的分类问题


    原文:http://blog.sina.com.cn/s/blog_61c463090102w9js.html

    paper学习分享:Large Unbalanced Credit Scoring Using Lasso-Logistic&nbs

    2016-03-01 18:38:27

    Large Unbalanced Credit Scoring Using Lasso-Logistic Regression Ensemble

    最近研究风控领域的非均衡数据分布的分类问题,搜集一些paper阅读,在此分享该paper的思想,可以基于实际数据集操作,实验。

    中心思想:基于规则化的LR模型作为基础学习器,然后对基础学习器进行集成学习

    贡献点:

    (1)基于规则化的LR进行ensemble;

    (2)数据均衡化处理,基于聚类算法和bagging算法

    (3)提出两种新的变量重要性度量方式

    数据集:http://www.kaggle.com/c/GiveMeSomeCredit

    业务:信用评分

    模型:评分卡模型

    挑战:数据高度不均衡,数据倾斜

    data collected are usually highly unbalanced or skewed,常见算法

    Cost-sensitive learning and re-sampling approaches

    Lasso-logistic regression ensemble(LLRE)

    lasso-LR

    bagging Algorithm

    LLRE 算法

    (1)数据均衡化处理,基于变量的相似性,对majority class进行聚类,得到subgroup数据;

    (2)数据多样性处理,对minority class进行resample bagging处理;

    (3)合并上述majority 和 minority sub-group数据集,得到sub-dataset;

    ensemble方法

    加权平均,权重计算

    wi = 1 / (1 + exp(-pi)),其中wi表示第i个分类器的权重,pi表示第i个分类器在第i个obs验证数据集上的性能

    变量重要性评估

    (1)LLR-occurrence measure

    The presence or absence of a predictor variable in the Lasso model naturally indicates whether it is closely related to the outcome variable or not

    (2)基于AUC decrease确定变量重要性

    模型效果比较(基于kaggle数据集)

    RunNo LLRE RF LLR CART

    1 0.8598 0.857 0.8571 0.7632

    2 0.8553 0.8538 0.8526 0.7676

    3 0.8662 0.8609 0.8651 0.7786

    4 0.8602 0.8576 0.8577 0.7778

    5 0.858 0.8564 0.8559 0.7746

    6 0.8662 0.8628 0.8638 0.7689

    7 0.8544 0.8536 0.8526 0.77

    8 0.8619 0.8617 0.8589 0.7749

    9 0.8657 0.8606 0.8636 0.7832

    10 0.8575 0.8569 0.8561 0.7665

    11 0.8622 0.8578 0.8604 0.7762

    12 0.8565 0.8551 0.8542 0.7748

    13 0.8576 0.8519 0.8573 0.7763

    14 0.8573 0.8537 0.8547 0.7761

    15 0.8638 0.8648 0.8606 0.7699

    16 0.8567 0.8535 0.8547 0.7728

    17 0.8586 0.8579 0.8558 0.7783

    18 0.8696 0.8631 0.8666 0.7792

    19 0.8529 0.8523 0.8506 0.77

    20 0.8651 0.8607 0.8609 0.7732

    参考paper:

    ​http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0117844

    大数据集下的非均衡数据分布的分类问题更为突出,可以借鉴一些思路引入到实际工作之中,反欺诈等等。​

  • 相关阅读:
    纪念我用word发布的第一篇文章
    第一个SpringMVCHelloWorld
    JSTL学习笔记
    bonecp的使用
    hdu 1556 树状数组
    hdu 1561 树形DP
    MYSQL使用笔记
    Android中简单实现Spinner的数据绑定
    Android中利用Application实现多个Activity间共享数据
    技术到底重要不重要?
  • 原文地址:https://www.cnblogs.com/zhizhan/p/5238881.html
Copyright © 2020-2023  润新知