一、特征选择
(1)特征来源:
1、已经处理好的特征数据
2、从业务特征中自己去寻找高级数据特征
(2)选择合适的特征:
1、寻找该领域专家,向他们寻求建议
2、方差筛选
3、过滤法
4、包装法
5、嵌入法
(3) 寻找高级特征
1、若干项特征向加和
2、若干项特征相乘
3、若干项特征之差
4、若干项特征除商
二、特征表达(如何对某一特征的具体表现形式做处理)
(1)缺失值处理
1、对连续值来说:取平均值、中位数进行缺失值补充
2、对离散值来说:最频繁出现的类别
(2)特殊的特征处理
一般有些特征的默认值取值比较特殊,一般需要做了处理后才能用于算法
1、对于时间特征:采用连续的时间差值法;转化为若干离散特征;权重法
2、对地理特征:可以转化为经度和维度连续特征值
(3)离散特征的连续处理:
1、独热编码one-hot encoding
2、特征嵌入embedding
(4)离散特征的离散化:
1、独热编码
2、虚拟编码
(5) 连续特征离散化
三、特征预处理
(1)特征的标准化与归一化
1、z-score标准化
2、max-min标准化
3、L1、L2范数标准化
(2)异常特征样本清洗
1、聚类
2、异常点检测
(3)处理不平衡数据
1、权重法
2、采样法
参考:https://www.cnblogs.com/pinard/p/9093890.html
https://www.cnblogs.com/pinard/p/9061549.html
https://www.cnblogs.com/pinard/p/9061549.html