• BigData预处理(完整步骤)


    BigData预处理(完整步骤)

    虽然题目是完整步骤,实际上并不完整,以下是原文内容

    一:为什么要预处理数据?

    (1)现实世界的数据是肮脏的(不完整,含噪声,不一致)
    (2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成)
    (3)原始数据中存在的问题:
    不一致 —— 数据内含出现不一致情况
    重复
    不完整 —— 感兴趣的属性没有
    含噪声 —— 数据中存在着错误、或异常(偏离期望值)的数据
    高维度
    二:数据预处理的方法
    (1)数据清洗 —— 去噪声和无关数据
    (2)数据集成 —— 将多个数据源中的数据结合起来存放在一个一致的数据存储中
    (3)数据变换 —— 把原始数据转换成为适合数据挖掘的形式
    (4)数据规约 —— 主要方法包括:数据立方体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。
    (5)图说事实
    三:数据选取参考原则
    (1)尽可能富余属性名和属性值明确的含义
    (2)统一多数据源的属性编码
    (3)去除唯一属性
    (4)去除重复属性
    (5)去除可忽略字段
    (6)合理选择关联字段
    (7)进一步处理:
    通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致数据,去掉数据中的噪音、填充空值、丢失值和处理不一致数据
    四:用图说话,(我还是习惯用统计图说话)
     
    数据清洗的路子:刚拿到的数据 —-> 和数据提供者讨论咨询 —–> 数据分析(借助可视化工具)发现脏数据 —->清洗脏数据(借助MATLAB或者Java/C++语言) —–>再次统计分析(Excel的data analysis不错的,最大小值,中位数,众数,平均值,方差等等,以及散点图) —–> 再次发现脏数据或者与实验无关的数据(去除) —–>最后实验分析 —-> 社会实例验证 —->结束。
  • 相关阅读:
    C#的多态性
    冒泡法,改进冒泡法排序和反序算法
    [收藏]D3D渲染流程简介
    [收藏]字符串表达式求值
    Windows下使用VC++编译GNU科学计算库 GNU Scientific Library(GSL)
    VC++ 高精度定时timeSetEvent和回调成员方法
    [收藏]C/C++数组名与指针区别深层探索
    线性表操作
    线性表综合运用
    两个线性表融合的算法
  • 原文地址:https://www.cnblogs.com/fonttian/p/9162809.html
Copyright © 2020-2023  润新知