1. 数据清洗
1.1 数据质量概念
数据清洗是保证数据质量的重要步骤,数据质量最重要的方面是准确性、完整性、一致性,其次还有时效性、可信性、可解释性。
数据质量对于数据的不同适用对象而言重要性不同。
数据质量问题有很多源头:
人为性问题:
- 人为的偶然因素:如记忆偏差、测量偏差;
- 人为的系统因素:采集端因素和应用端因素。
- 采集端如人、工具、环境等导致的系统性误差,导致准确性不佳
- 应用端如人会主观根据兴趣选择属性,会导致完整性的缺失。
系统性问题:
- 数据采集方法设计的问题:如用户没有填写,系统强制填写的信息
- 数据传输中的错误
- ……
1.2 数据清洗的流程和常用方法框架