精通特征工程

精通特征工程
一数值类型

　　原因：数值类型可能跨度过大，跨几个数量级，不符合模型的前提条件。拟合出来的模型不够强壮。

　　1 二值化

　　2 处理长尾分布数量，有两种思路，一种是对数处理，一种是分箱处理。处理的原因还是因为横跨了若干个数量级，对很多模型都是问题。

　　　　

　　3 归一化，处理设计欧式距离的算法，比如KNN，K-means，线性回归等

　　4交互特征

　　　　好像挺牛逼的。代价不菲，需要精心设计。

　　在统计机器学习中，所有特征最终都会转化为数值型特征。

二文本数据

　　
```
from sklearn.feature_extraction.text import CountVectorizer
```
　　词袋模型 -- N元词袋

　　TF-IDF 本质是一种特征缩放技术。凸出了罕见词，并有效的忽略的常见词。

　　　　+ 逻辑回归 + 正则化 + GridSearchCV

　

三分类数据

　　one-hot encoding
```
方法一
from sklearn.preprocessing import OneHotEncoder
oh = OneHotEncoder()
oh.fit(data)
oh.transform(data).toarray()

方法二
pd.get_dummies(data)
```
　　虚拟编码

　　效果编码

　　

　　大型分类数据

　　　　

　　　　

四数据降维 --PCA

　　应用场景，特征之间线性相关

　　

五非线性特征化与K均值

　　

　　

else

　　解决了我之前的一个疑惑

　　

　　
相关阅读:
【MySQL】悲观锁&乐观锁
 选盘秘籍：用户如何选择SSD/SATA/SAS？
【MySQL】分页优化
 【MySQL】锁问题最佳实践
 【MySQL】锁入门
 【MySQL】SQL优化系列之 in与range 查询
 【DNS】简单聊聊DNS如何工作
 【MySQL】排序原理与案例分析
 git的使用
 关于fastjson与jackson在反序列化bool型时的区别
原文地址：https://www.cnblogs.com/654321cc/p/13221079.html