• 数据科学之数据预处理


    数据预处理

    1数据质量

    基本属性:正确性,完整性,一致性

    2数据审计

    运用一定的规律和评价方法,发现数据中存在的问题。如:缺失值,噪声值,不一致值,不完整值。

    数据审计的三种类型:预定义审计,自定义审计,可视化审计

    3数据清洗

    3.1缺失数据清洗

    三个活动:缺失识别,缺失分析,缺失处理

    方法:较为简单缺失,可以忽略,删除,插值等,复杂的:模型选择法,模式混合法等

    3.2冗余数据清洗

    方法:重复过滤,直接过滤,间接过滤,条件过滤

    3.3噪声数据处理

    方法:分箱,聚类,回归

    4数据变换

    5数据集成

    对来自不同数据源的数据进行集成,然后才能分析处理。

    5.1基本类型

    内容集成

    结果集成

    5.2主要问题

    模式集成

    数据冗余

    冲突检测与消除

    6其他预处理方法

    6.1数据脱敏

    简单来说就是在不影响数据分析结果的准确性前提下对敏感数据进行变换,过滤,删除等操作,降低数据的敏感性。

    6.2数据规约

    减少数据规模,从而提升数据分析效率和效果。也是具有前提条件的。

    6.3数据标注

    通过增加数据标注(颜色,纹理,词性,形状等)提高数据检索,洞察,分析和挖掘的效果和效率。

  • 相关阅读:
    test
    莫烦Python
    资源汇总
    AutoHotkey学习资源
    神器AutoHotkey学习(官方文档翻译)
    linux内核编译时bad register name `%dil'错误
    Linux内核修炼之道-->原作者博客链接--oschina备份
    vim笔记--oschina备份
    vim相关资源--oschina备份
    Windows下装Gvim时可能发生的错误--oschina备份
  • 原文地址:https://www.cnblogs.com/fxust/p/8097505.html
Copyright © 2020-2023  润新知