一、数据预处理
1.步骤:数据清洗 数据集成 数据变换 数据规约
2.缺失值处理
删除
填充:固定值,均值 上下数据
- isnull
- 用均值填充
- 用上/下一个非缺失值填充
data.fillna(method="ffill/bfill")
二.数据规范化
解决哪些影响:量纲不同,数值范围差异大
规范化常用方法:
(1)最小-最大规范化
调用sklearn包
(2)z-score规范化:适用于聚类,因为用距离度量相似性
定义:
(3)小数定标规范化
(4)特征二值化
三、数据规约
1.PCA降维
四、pandas
1.diff可以统计相邻两个对象