• 数据挖掘概念与技术(韩家伟)阅读笔记3--数据清理


    1.数据清理清理什么。

        缺失值,噪声,纠正数据的不一致

    2.清理噪声的方法

        a.分箱。对象是有序的数据。可以用箱的均值,中位数,箱边界光滑(箱中的每一个值都被据它最近的边界值代替)。

        b.回归。用一个函数拟合数据进行光滑。

        c.聚类。

    3.数据清理作为一个过程

        a.偏差检测(第一步检测。主要解决不一致的问题)。

                    (1)警惕编码的不一致和数据表示的不一致(比如日期表示)。

                    (2)字段过载。将新属性定义到已有属性未使用的位。

                    (3)唯一性原则。给定属性的值必须不同于该属性所有的其他值。

                    (4)连续性原则。属性的最小值和最大值之间没有缺失的值。

                    (5)空值规则。说明空白,问号,特殊符号等的使用及如何处理这样的值。

                工具:数据清洗工具

                        数据审计工具

        b.数据变换(第二步纠正偏差)

                      数据迁移工具:允许说明简单的变换。例如将gender变为sex(属性名).

                      ETL(提取/变换/装入工具)

                   说明;这两种方法只能做简单的变换,通常在这一步我们需要编写定制的程序。

    4.说明:

               在数据清理的过程中,通常是偏差检测和数据变换多次迭代进行的。

  • 相关阅读:
    excel读取 工具类
    对电脑屏幕进行拍照(屏幕截图),保存为图片---工具类
    DateTimePicker:jQuery日期和时间插件
    集合工具类
    二维码工具类
    JavaScript 排序算法——快速排序
    IP工具类——IpAddress.java
    验证码图片生成工具类——Captcha.java
    文件相关操作工具类——FileUtils.java
    weblogic使用root用户启动后,不能再使用weblogic启动的修复办法
  • 原文地址:https://www.cnblogs.com/zjh225901/p/6018294.html
Copyright © 2020-2023  润新知