• 特征工程


    一、特征选择

    (1)特征来源:

        1、已经处理好的特征数据

        2、从业务特征中自己去寻找高级数据特征

    (2)选择合适的特征:

        1、寻找该领域专家,向他们寻求建议

        2、方差筛选

        3、过滤法

        4、包装法

        5、嵌入法

    (3) 寻找高级特征

        1、若干项特征向加和

        2、若干项特征相乘

        3、若干项特征之差

        4、若干项特征除商

    二、特征表达(如何对某一特征的具体表现形式做处理

    (1)缺失值处理

        1、对连续值来说:取平均值、中位数进行缺失值补充

        2、对离散值来说:最频繁出现的类别

    (2)特殊的特征处理

      一般有些特征的默认值取值比较特殊,一般需要做了处理后才能用于算法

        1、对于时间特征:采用连续的时间差值法;转化为若干离散特征;权重法

        2、对地理特征:可以转化为经度和维度连续特征值

    (3)离散特征的连续处理:

        1、独热编码one-hot encoding

        2、特征嵌入embedding

    (4)离散特征的离散化:

        1、独热编码

        2、虚拟编码

    (5) 连续特征离散化

    三、特征预处理

    (1)特征的标准化与归一化

        1、z-score标准化

        2、max-min标准化

        3、L1、L2范数标准化

    (2)异常特征样本清洗

        1、聚类

        2、异常点检测

    (3)处理不平衡数据

        1、权重法

        2、采样法

    参考:https://www.cnblogs.com/pinard/p/9093890.html

       https://www.cnblogs.com/pinard/p/9061549.html

       https://www.cnblogs.com/pinard/p/9061549.html

  • 相关阅读:
    codeforces 940E 思维,dp
    codeforces 469D 2-SAT
    Codeforces 937D dfs
    Educational Codeforces Round 39 (Rated for Div. 2) D dp E 贪心
    Codeforces Round #469 (Div. 2) D 数学递归 E SCC缩点
    Wannafly挑战赛11 D 白兔的字符串 Hash
    Codeforces Round #470 (Div 2) B 数学 C 二分+树状数组 D 字典树
    UVA
    最小生成树(改了两个板子写的)道路建设
    poj1125 基础最短路
  • 原文地址:https://www.cnblogs.com/spp666/p/11479999.html
Copyright © 2020-2023  润新知