• 【数据清洗】2007-数据清洗研究综述


    王曰芬 章成志 张蓓蓓 吴婷婷

    • 定义:数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
    • 目的:数据清洗的目的是为信息系统提供准确而有效的数据。
    • 基本原理:利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据转换为满足数据质量要求的数据。数据清洗按照实现方式与范围,可分为以下4种:

    Ⅰ  手工实现

    Ⅱ  编写专门的应用程序

    Ⅲ  解决某类特定应用域的问题

    Ⅳ  与特定应用领域无关的数据清洗

    Ⅲ、Ⅳ通用性较强

    • 框架模型

    Ⅰ  Trillium的模型(Trillium[7]是由Harte Hanks Data Technologies的Trillium Software Systems部门创建的企业范围的数据清洗软件。)

            将数据清洗的过程分为5个步骤:

    Ⅱ  Bohn模型

            将数据清洗分为以下4个主要部分:

    Ⅲ  AJAX模型

            将数据清洗分为5个步骤:

    • 数据清洗算法

    image

    • 数据清洗工具
      Ⅰ  特定功能的清洗工具(特定功能的清洗工具)
      Ⅱ  ETL工具(数据仓库)

    Ⅲ  其他工具

            基于引擎的工具

            数据分析工具

            业务流程再设计工具

            数据轮廓分析工具

            数据挖掘工具

    • 数据清洗评估

    Ⅰ  可信度

             精确性:描述数据是否与其对应的客观实体的特征相一致。

             完整性:描述数据是否存在缺失记录或缺失字段

             一致性:描述同一实体的同一属性的值在不同的系统是否一致
                    有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。
                    唯一性:描述数据是否存在重复记录。

    Ⅱ  可用性

             时间性:描述数据是当前数据还是历史数据

             稳定性:描述数据是否是稳定的,是否在其有效期内

  • 相关阅读:
    深入了解JVMzz
    正则表达式和Java编程语言1zz
    全世界所有程序员都会犯的错误zz
    C++完美实现Singleton模式zz
    Visual C++6.0 API函数操作技巧集zz光标和鼠标操作
    用next_permutation()生成r组合数,兼VC7的一个bugzz
    基于逆向最大化词表中文分词法zz
    c#.net常用函数列表
    Windows多线程多任务设计初步zz
    在Linux中实现内部进程通信
  • 原文地址:https://www.cnblogs.com/XBWer/p/4198804.html
Copyright © 2020-2023  润新知