• 随机森林


    注:  出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码

    目标:

        个险客户特征分析

    建模过程:

    输入: 从现有上千万的客户信息抽取其个人信息, 清洗后留下100多个特征, 包括婚姻, 年龄, 收入, 身高体重, 职业风险度, 居住区等.  用现有产品的类别作为分类信息, 包括储蓄险, 终身险, 定期险, 投资险等.

    算法:

        首先使用决策树作粗略的预测检验输入数据的有效性,使用随机森林输出重要的特征

        决策树的优点在于直观, 容易实现, 并且能同时处理离散型和连续型变量, 过程中添加变量的改动也不大. 从数据中抽取了一年的客户信息作为训练集, 建立决策树来预测客户选择的保险产品类别.

    结果分析:

    第一次运行命中率只有40%, 分析其混淆矩阵:

     

    可以看出, 决策树在最后一个分类的效果很差, 可以说没有效果,在第三第四个分类上区分度也不高.  

    最后一个分类是投资险, 说明现有客户特征并不能满足投资险种分类的区别, 需要添加特征值

    第三,四个分类其实都是定期险, 一种是缴费年限定期, 另一种是被保年龄定期, 本质上区别不大,可以合并起来

    暂时过滤掉投资险客户信息, 合并定期险客户信息后, 重运行的混淆矩阵

     

    可以看到分类已经有所改进了, 命中率可以达到60%

    二三四分类的区分度看上去已经不错了, 唯有第一类储蓄险种区分度不高, 把这部分客户信息过滤掉之后, 就可以达到不错的命中率了.

    随机森林相比决策树的优点除了准确率高之外, 更重要的是它能够给出哪些feature比较重要! 而这正好就是市场部分所需要的东西. 

    最终结果显示, 在过去的10年中, 客户的婚姻状态/年龄/身高体重对客户的保险产品选择贡献度最高.

    模型的结果最终会在Tableau上显示:

    如特征值贡献度走势

     

     重要特征分类下的保单数统计

  • 相关阅读:
    # 单调栈 ——Acwing 152. 城市游戏
    # 队列 ——Blah数集(OpenJ_Bailian
    # 队列 ——机器 51Nod
    # 栈 # 队列 ——HDU
    openlayers 为元素添加点击和鼠标悬停事件
    wfs请求filter中判断字段为null的写法
    ArcMap去掉Tiff栅格图层外围的黑色边框
    ArcMap给栅格数据配准并设置坐标系
    ArcMap将线按它的每个节点打散和按照线的相交点打断
    使用turf.js和openlayers配合生成等值面
  • 原文地址:https://www.cnblogs.com/okokok/p/6104824.html
Copyright © 2020-2023  润新知