1.scale
https://blog.csdn.net/baidu_28122193/article/details/78980574
https://www.cnblogs.com/CZYang/p/9360272.html
数据集中,不同的特征存在不同的量纲,为了消除量纲、数值差异等,我们就需要对数据进行中心化和标准化。
中心化:
将数据减去均值后得到的,比如有一组数据(1,2,3,4,5,6,7),它的均值是4,中心化后的数据为(-3,-2,-1,0,1,2,3)。
也就是将数据移动到原点(0,0)为中心。
图中右上角蓝色部分表示的是原始数据。左下角红色部分是中心化后的数据。
于是,我们可以看出,数据中心化的过程就是一个将数据平移到原点附近的过程,平移后的中心点就是原点,此时数据在原点周围分布。
标准化:
在中心化后的数据基础上再除以数据的标准差。可以通过scale函数直接进行数据的中心化和标准化,具体如下:
scale(x,center,scale)
- x—即需要标准化的数据
- center—表示是否进行中心化
- scale—表示是否进行标准化