数据预处理(Data Preprocess):通过采用数据清理、数据集成与变换以及数据规约等方法对数据预先进行处理,处理后的数据用于数据挖掘。
在当前社会中,由于大数据、数据源不唯一等原因使得在真实数据库存放的数据存在噪声、缺失和不一致的问题。基于数据的信息挖掘在数据不能保证的情况下,挖掘得到的信息也很难具有说服力。(地基都没夯实就去建造高楼大厦谁敢住?)为了解决实际中遇到的这些问题,数据预处理技术顺势产生。常见的几种数据预处理的方式主要有:
1.数据清洗。主要用于去除噪声数据(包括错误数据和离群数据)以及解决数据不一致问题;
2.数据集成。通过数据整合可以将多个数据源的数据合并为一个统一数据集合。
3.数据变换。在数据变换中常用的操作例如标准化(normalization),可以提高数据挖掘的准确性。
4.数据规约。通过数据聚集、属性子集选择以及维度规约等方法对数据集合进行简化表示,但能够产生同样的(几乎同样的)分析结果。
有关数据预处理技术的内容将在接下来的章节逐渐展开。