数据预处理是数据挖掘的重要步骤,数据挖掘者的大部分时间和经历都要花在预处理阶段。数据预处理涉及的策略和技术非常广泛,主要包括如下技术:
1)聚集
聚集(Aggregation)就是将两个或多个对象合并为单个对象。一般来说,定量数据通常通过求和或求平均值进行聚集,定性数据通常通过汇总进行聚集。聚集可能导致有趣细节的丢失。
2)抽样
3)维度规约
4)属性选择
5)属性创建
6)离散化和二元化
7)变量变换
数据预处理是数据挖掘的重要步骤,数据挖掘者的大部分时间和经历都要花在预处理阶段。数据预处理涉及的策略和技术非常广泛,主要包括如下技术:
1)聚集
聚集(Aggregation)就是将两个或多个对象合并为单个对象。一般来说,定量数据通常通过求和或求平均值进行聚集,定性数据通常通过汇总进行聚集。聚集可能导致有趣细节的丢失。
2)抽样
3)维度规约
4)属性选择
5)属性创建
6)离散化和二元化
7)变量变换