• 特征工程



    特征使用方案

    • 实现我们的目标需要哪些数据?基于业务理解 ,尽可能找出对因变量有影响的所有自变量

    • 可用性评估

      • 获取难度
      • 覆盖率
      • 准确率
    • 特征获取方案

      • 如何获取这些特征?
      • 如何存储?

    特征处理

    特征清洗

    • 清洗异常样本
    • 采样
      • 数据不均衡
      • 样本权重

    预处理

    • 单个特征
      • 归一化
      • 离散化
      • Dummy Coding
      • 缺失值
      • 数据变换
        • log
        • 指数
        • Box-Cox
    • 多个特征
      • 降维
        • PCA
        • LDA
      • 特征选择
        • Filter
          • 思路:自变量和目标变量之间的关联
          • 相关系数
          • 卡方检验
          • 信息增益、互信息
        • Wrapper
          • 思路:通过目标函数( AUCMSE )来决定是否加入一个变量
          • 迭代:产生特征子集,评价
            • 完全搜索
            • 启发式搜素
            • 白随机搜索
              • GA
              • SA
        • Embedded
          • 思路:学习器自身自动选择特征
          • 正则化
            • L1 ---- Lasso
            • L2 ---- Ridge
          • 决策树 ---- 熵、信息增益
          • 深度学习
    • 衍生变量:对原始数据加工,生成有商业意义的变量

    特征监控

    • 特征有效性分析 ----- 特征重要性,权重
    • 特征监控 ---- 监控重要特征 ---- 防止特征质量下降,影响模型效果
  • 相关阅读:
    DELPHI美化界面
    WebSevice相关
    Hotmail邮件接收
    DHTMLEdit
    Eclipse 基础
    POP3相关
    DELPHI中GIF的使用
    javaaop
    RAD Studio 2010 启动报错"displayNotification: 内存不够" 解决办法
    编程之道
  • 原文地址:https://www.cnblogs.com/fldev/p/14362771.html
Copyright © 2020-2023  润新知