数据预处理
1数据质量
基本属性:正确性,完整性,一致性
2数据审计
运用一定的规律和评价方法,发现数据中存在的问题。如:缺失值,噪声值,不一致值,不完整值。
数据审计的三种类型:预定义审计,自定义审计,可视化审计
3数据清洗
3.1缺失数据清洗
三个活动:缺失识别,缺失分析,缺失处理
方法:较为简单缺失,可以忽略,删除,插值等,复杂的:模型选择法,模式混合法等
3.2冗余数据清洗
方法:重复过滤,直接过滤,间接过滤,条件过滤
3.3噪声数据处理
方法:分箱,聚类,回归
4数据变换
5数据集成
对来自不同数据源的数据进行集成,然后才能分析处理。
5.1基本类型
内容集成
结果集成
5.2主要问题
模式集成
数据冗余
冲突检测与消除
6其他预处理方法
6.1数据脱敏
简单来说就是在不影响数据分析结果的准确性前提下对敏感数据进行变换,过滤,删除等操作,降低数据的敏感性。
6.2数据规约
减少数据规模,从而提升数据分析效率和效果。也是具有前提条件的。
6.3数据标注
通过增加数据标注(颜色,纹理,词性,形状等)提高数据检索,洞察,分析和挖掘的效果和效率。