数据清理-噪声数据
数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。
噪声数据
噪声(noise)是被测量的变量的随机误差或方差。光滑数据,去除噪声方法如下。
1.分箱(binning)
分箱方法通过考察数据的近邻(即周围的值)来光滑有序数据值。这些有序的值被分不到一些桶或箱中。由于分箱方法考察近邻的值,因此它进行局部光滑。
对于用箱均值光滑,箱中每一个值都被替换为箱中的均值。
用箱中位数光滑,此时,箱中的每一个值都被替换为该箱的中位数。
对于用箱边界光滑,给定箱中的最大和最小值同样被视为箱边界,而箱中的每一个值都被替换为最近的边界值。
一般而言,宽度越大,光滑效果越明显。箱也可以是等宽的,其中每个箱值的区间范围是常量。分箱也可以作为一种离散化技术使用。
2.回归(regression)
也可以用一个函数拟合数据来光滑数据,这种技术称为回归。线性回归涉及找出拟合两个属性(或变量)的最佳直线,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩充,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。
3.离群点分析(outlier analysis)
可以通过如聚类来检测离群点。聚类将类似的值组织成群或簇。直观地,落在簇集合之外的值被视为离群点。