• 数据整理总结


    收集

    • 根据数据来源及其格式,收集数据的步骤各不相同。
    • 高级收集过程:获取数据(从互联网下载文件、抓取网页、查询 API 等),然后将该数据导入编程环境(例如 Jupyter Notebook)。

    评估

    • 评估数据的目的包括:

      • 质量:内容问题。低质量数据也称为脏数据。
      • 整洁度:使分析难易进行的问题。不整洁数据也称为杂乱数据。条理数据的要求包括:
        1. 每个变量成一列。
        2. 每个观察结果成一行。
        3. 每种观察单位构成一个表格。
    • 评估类型:

      • 目测评估:使用你喜欢的软件应用程序(Google 表格、Excel、文本编辑器等)观察数据。
      • 编程评估:使用代码来查看数据的特定部分和摘要(例如 pandas 的 headtail 和 info方法)。

    清洗

    • 清洗类型:
      • 手动(不推荐,除非问题是一次性出现)
      • 编程
    • 编程数据清洗过程:
      1. 定义:将评估转换为定义的清洗任务。这些定义也可以作为指令列表,以便其他人(或你自己将来)可以回顾和重现自己的工作。
      2. 代码:将这些定义转换为代码并运行。
      3. 测试:可视上或使用代码练习数据集,确保清洗操作可顺序进行。
    • 清洗之前,请务必备份原始数据!

    重新评估与迭代

    • 清洗后,如有必要,请重新评估和迭代任何数据整理步骤。

    存储(可选)

    • 例如,如果将来使用,可将数据存储到文件或数据库中。
  • 相关阅读:
    【Daily Scrum】12-03:Sprint 3 Planning
    【Daily Scrum】12-02:Postmortem of sprint 2
    Team Project: 基于windows phone 8平台的PhotoStoryTelling 软件 ——by Qing
    【Daily Scrum】12-26
    【Daily Scrum】12-25
    【Daily Scrum】12-23
    【Daily Scrum】12-22
    【Daily Scrum】12-18
    【Daily Scrum】12-15
    列几点一些软件或APP的Bug和对其建议
  • 原文地址:https://www.cnblogs.com/chickenwrap/p/10005364.html
Copyright © 2020-2023  润新知