前言
在进行缺失,异常处理之后,往往要对数据进行变换。
变换有多种情况,主要是以下两种:
- 规范化:对数据进行一定比例的缩放,让它实质落入某个具体区间。
- 离散化:将连续型数据转化为离散化。
规范化
数据规范化非常容易实现,调用scale函数即可:
它的具体变换步骤是特征值减去所有特征的均值再除以标准差。
结果区间为-1到1。如果要0-1的,则将结果平方。
离散化
离散化可自行写代码来实现:
小结
较之前面几个预处理阶段,本文所讲解的标准化阶段还是比较容易掌握的。