• 特征工程之应用业务知识(保险)


    1. 可通过其他属性推断一些缺失值:

        缺失值可以简单粗暴的用中位数,均值,0/空值填充确保算法可以走完,然而通过统计、推断、预测得出的填充值效果会比较好。

    • 某些只卖给单一性别的产品,譬如生育险,可以推断出被保人必然是女性;
    • 费率可以推测被保人的性别,年龄
    • 一般来说,吸烟者都会在系统中有标识,所以没有标志的可认定为不吸烟者
    • 根据职业也可推测性别
    • Modal/Annualized premium推测缴费频率
    • 未成年人(各国标准不同,须注意)的婚姻状态
    • 根据现有的数据线性拟合预测缺失值。如身高、职业、国籍、年龄等,可拟合出体重数据

    2. 创造特征

    • 从不同的角度看待现有特征而创造。日期类型的特征在算法中很难直接使用,可转换为其他特征。如生日,可根据特定的目的变为“当时的年龄”“现在的年龄”“第一次购买时的年龄”“初次住院年龄”等
    • 从POS中发现特征。如“搬家次数”“通勤时间长短”“加减保的频率”“曾改名”。
    • 从特定的业务规则中提取。如拥有FATCA账户或“一卡通”的被保人可被认为“支付能力高”

    3. 准备一张厚脸皮,虚心讨教业务人员 

    《待补充》

    回顾下来,渐渐明白为何找不到一本书能够系统地介绍特征工程了,因为各行各业的特点不一样,很难抽象出通用的知识点或者说技巧。

    暂时以大神的一句话做结尾吧:

    Actually the success of all Machine Learning algorithms depends on how you present the data.

    — Mohammad Pezeshki

  • 相关阅读:
    svn命令
    samba配置
    查看登录用户who
    facl笔记
    计算100以内所有奇数的和以及所有偶数的和;分别显示之
    计算100以内所有能被3整除的正整数的和
    特殊权限:SUID,SGID,Sticky
    vi命令笔记
    nginx、fastCGI、php-fpm关系梳理(转载参考)
    Nginx + CGI/FastCGI + C/Cpp
  • 原文地址:https://www.cnblogs.com/okokok/p/6783762.html
Copyright © 2020-2023  润新知