• python数据处理(五)之数据清洗:研究、匹配与格式化


    1 前言

    保持数据格式一致以及可读,否则数据不可能正确合并

    清洗数据的过程中记下清洗过程的每一步,方便数据回溯以及过程复用

    2 数据清洗基础知识

    2.1 找出需要清洗的数据

    仔细观察文件,观察数据字段,寻找不一致的地方

    2.1.1 替换标题

    将不宜动读的短标题换成容易理解的长标题

    2.1.2 合并标题与数据

    2.2  数据格式化

    将可读性差的数据和数据类型转换为可读性强的格式

    2.2.1 格式化字符串与数据

        推荐 format()

    2.2.2 格式化日期

        import datetime

        datetime.strftime() 日期转换为字符串

        datetime.strptime() 字符串转化为日期

    2.3 找出离群值与不良数据

    错误数据:查看数据值是否有错误(缺失)

    离群值:NA

    2.4 找出重复值

    2.4.1 判断数据唯一性

    a.找到唯一键

    b.利用集合,numpy库,去重

    2.5 模糊匹配

    多个数据集或者未标准化的脏数据,可以用模糊匹配来寻找和合并重复值

    相关功能包

    fuzzywuzzy 

    2.6 正则表达式

    re包

    2.7 处理重复记录

    a. 合并重复行

    b.合并不同数据集(pandas)

  • 相关阅读:
    JS
    JS
    JS
    VUE
    element-ui 进入页面 message 自动触发的问题
    JS-数组中常用的方法
    CSS-transition简单过渡动画
    vue
    JS
    2021要买的书籍
  • 原文地址:https://www.cnblogs.com/qiu-hua/p/12616176.html
Copyright © 2020-2023  润新知