拍拍贷“魔镜风控系统”数据比赛

拍拍贷“魔镜风控系统”数据比赛
一、项目介绍

这是拍拍贷举办的一个风控算法比赛，目标是根据用户历史行为数据来预测用户在未来6个月内是否会逾期还款。评价指标为AUC。

然后给出的数据有贷款记录、借款人登录信息，借款人修改信息，主要进行的工作是：

1.数据预处理

1.1缺失值的处理

按列统计：作图分析各列缺失值的比例

缺失值比例过高的偶直接弃用（90%），缺失值比较多的（一半左右）类型变量把缺失值当做一种类型进行处理，用-1进行填充，数值型用均值或者最大值，最小值（根据具体情况，这里是类型变量），缺失值比较小的用中值进行填充。

按行统计：用折线图统计每个样本缺失值的个数，发现有一些样本缺失值太多，基本不包含信息，相当于离群点，将其剔除。而且缺失特征个数可以作为一个特征，因为信息的完善程度在信贷领域的话，也可以作为预测用户信用的一个信息。

1.2.剔除变化小的变量

在数值类型中，通过计算每个数值型特征的标准差，剔除变化很小的特征，在190个特征中，有15个的标准差接近0，将其剔除

1.3.字符串相关处理：大小写转换，空格的处理，城市名的处理

二、特征工程

2.1特征编码

地理位置处理：one-hot encoding加上特征选择，原数据中有7个字段是地理位置，包括省份和城市，针对省份的方法是统计了违约最多的几个省份

然后把这几个省份做成二值特征，这样处理更具有判别性。城市的处理是先进行独热编码，然后用sklearn中的
```
sklearn.feature_selection import SelectKBest，选取前100个城市留下。
```
成交时间特征：通过作图发现拍拍贷的业务量随时间增加，守约和违约量也随之增加，从第一天到最后一天每十天编为一个码，1,2,3...

其他的类别型数据用one-hot encoding

2.2特征组合

通过特征重要性分析我得出其中一个ThirdParty_Info_Period_XX”的 feature score 得分很高，然后用这个特征中的属性两两相除得到7000个特征，然后用xgboost对这些特征进行单独训练，然后get_fscore方法得到特征重要性得分，取了其中500个，通过这500个特征的加入，最后的AUC从0.75提高到了0.77。

2.3特征提取

从用户修改信息和登录信息中提取了信息修改次数，登录天数，每种操作的次数，平均登录间隔等特征

2.4特征选择

2.5类别不平衡的处理

给出的数据正负本的比例是13:1，采用过采样的方法:SMOTE：通过对训练集中的小类数据进行插值来产生额外的小类样本数据。产生新的少数类样本，产生的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的少数类样本。

三、模型设计

初赛训练数据3万条，测试数据2万条，复赛训练数据8万条，测试数据1万条。原始特征加上构建的特征1500维左右

3. 1 LR+L1正则，采用L1是因为数据比较高维

单模型验证集AUC是0.74

3.2 XGBoost

交叉验证的AUC平均在0.76左右
相关阅读:
What Is Pros and Cons
计算机编程简史图
 封装事件订阅发布 on emit off
父子通信VUE
如何让textarea不可拖拽
 [导入]Web Client Software Factory系列（1）：初识与预备知识
 [导入]Enterprise Library v3中的新成员：Application Block Software Factory
[导入]Web Client Software Factory 开发路线图
 [导入]微软Web Client Software Factory RC版发布
 [导入]Web Client Software Factory系列（3）：ViewPresenter模式
原文地址：https://www.cnblogs.com/stAr-1/p/8973426.html