• 数据分析师必须掌握的知识结构


    数据分析师必须掌握的知识结构

    作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发展到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。

    在互联网高速发展的今天,大数据依然渗透到我们的生活和工作中,企业要想在未来获得更多的价值,大数据和数据分析师是非常有必要的。但是作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发展到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。

    数据分析师必须掌握的知识结构

    1.数据采集

    了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则导致的数据问题;同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。  比如:当用户在离线状态下使用APP时,数据由于无法联网而发出,导致正常时间内的数据统计分析延迟。直到该设备下次联网时,数据才能被发出并归入当时的时间。这就产生了不同时间看相同历史时间的数据时会发生数据有出入。

    在数据采集阶段,数据分析师需要更多的了解数据生产和采集过程中的异常情况,如此才能更好的追本溯源。另外,这也能很大程度上避免“垃圾数据进导致垃圾数据出”的问题。

    2.数据存储

    无论数据存储于云端还是本地,数据的存储不只是我们看到的数据库那么简单。比如:

    ► 数据存储系统是MySQL、Oracle、SQLServer还是其他系统。  ► 数据仓库结构及各库表是如何关联,是星型、雪花型还是其他。  ► 生产数据库接收数据时是否有一定规则,比如只接收特定类型字段。  ► 生产数据库面对异常值如何处理,强制转换、留空还是返回错误。  ► 生产数据库及数据仓库系统如何存储数据,名称、含义、类型、长度、精度、是否可为空、是否唯一、字符编码、约束条件规则是什么。  ► 接触到的数据是原始数据还是ETL后的数据,ETL规则是什么。  ► 数据仓库数据的更新机制是什么,全量更新还是增量更新。  ► 不同数据库和库表之间的同步规则是什么,哪些因素会造成数据差异,如何处理差异的。

    在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断动态变化和迭代更新的,其及时性、完整性、有效性、一致性、准确性很多时候由于软硬件、内外部环境问题无法保证,这些都会导致后期数据应用问题。数据分析师培训

  • 相关阅读:
    Zookeeper入门:基本概念、5项配置、启动
    Zookeeper入门:基本概念、5项配置、启动
    iOS-入门HelloWorld
    iOS-入门HelloWorld
    Object-C,循环语句for,while,do-while
    Object-C,循环语句for,while,do-while
    Object-C,文件路径API
    Object-C,文件路径API
    HDU 4253 Two Famous Companies
    URAL 1297 Palindrome
  • 原文地址:https://www.cnblogs.com/amengduo/p/9587269.html
Copyright © 2020-2023  润新知