——by ChanZiyang
1 什么是中心化?
在数据处理的过程中,我们经常看到"中心化"这个字眼。那么什么是中心化呢?
数据中心化或者去均值(Zero-centered或者Mean-subtraction)。其目的是让数据通过中心化处理,得到均值为0的数据。同时中心化后的数据对向量来说也容易描述,因为是以原点为基准的。
2 中心化公式
数据中心化的数学公式如下:
其中,x表示原始数据,x'表示中心化后的数据,μ表示原始数据的平均值。
3 样例
这里,Data1是二维的原始数据,Average是其平均值,Data2是中心化后的数据。
图中右上角蓝色部分表示的是原始数据。左下角红色部分是中心化后的数据。
于是,我们可以看出,数据中心化的过程就是一个将数据平移到原点附近的过程,平移后的中心点就是原点,此时数据在原点周围分布。
4 Matlab代码
clear data1 = [1.24,1.27;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08]; average= mean(data1); %按行取均值 data2 = bsxfun(@minus, data1,average); %去均值 figure(1); plot(data1(:,1), data1(:,2),'o',data2(:,1), data2(:,2),'o'); %绘制数据分布图 xlabel('x轴');ylabel('y轴'); grid on;%显示网格线 axis on;%显示坐标轴