BigData预处理(完整步骤)

虽然题目是完整步骤,实际上并不完整,以下是原文内容

一：为什么要预处理数据？

（1）现实世界的数据是肮脏的（不完整，含噪声，不一致）
（2）没有高质量的数据，就没有高质量的挖掘结果（高质量的决策必须依赖于高质量的数据；数据仓库需要对高质量的数据进行一致地集成）
（3）原始数据中存在的问题：
不一致 —— 数据内含出现不一致情况
重复
不完整 —— 感兴趣的属性没有
含噪声 —— 数据中存在着错误、或异常（偏离期望值）的数据
高维度
二：数据预处理的方法
（1）数据清洗 —— 去噪声和无关数据
（2）数据集成 —— 将多个数据源中的数据结合起来存放在一个一致的数据存储中
（3）数据变换 —— 把原始数据转换成为适合数据挖掘的形式
（4）数据规约 —— 主要方法包括：数据立方体聚集，维度归约，数据压缩，数值归约，离散化和概念分层等。
（5）图说事实
三：数据选取参考原则
（1）尽可能富余属性名和属性值明确的含义
（2）统一多数据源的属性编码
（3）去除唯一属性
（4）去除重复属性
（5）去除可忽略字段
（6）合理选择关联字段
（7）进一步处理：
通过填补遗漏数据、消除异常数据、平滑噪声数据，以及纠正不一致数据，去掉数据中的噪音、填充空值、丢失值和处理不一致数据
四：用图说话，（我还是习惯用统计图说话）

数据清洗的路子：刚拿到的数据 —-> 和数据提供者讨论咨询 —–> 数据分析（借助可视化工具）发现脏数据 —->清洗脏数据（借助MATLAB或者Java/C++语言） —–>再次统计分析（Excel的data analysis不错的，最大小值，中位数，众数，平均值，方差等等，以及散点图） —–> 再次发现脏数据或者与实验无关的数据（去除） —–>最后实验分析 —-> 社会实例验证 —->结束。

相关阅读:
C#的多态性
冒泡法，改进冒泡法排序和反序算法
[收藏]D3D渲染流程简介
[收藏]字符串表达式求值
Windows下使用VC++编译GNU科学计算库 GNU Scientific Library(GSL)
VC++ 高精度定时timeSetEvent和回调成员方法
[收藏]C/C++数组名与指针区别深层探索
线性表操作
线性表综合运用
两个线性表融合的算法

原文地址：https://www.cnblogs.com/fonttian/p/9162809.html