• 数据工程师必备的8项技能,不要只知道Python!


    欢迎关注公众号:机器学习算法与Python实战(ID:tjxj666)

    原作:Mohammed M Jubapu
    译者:机器学习算法与Python实战(公众号ID:tjxj666)
    英文https://www.linkedin.com/pulse/skills-build-data-engineering-mohammed-m-jubapu/

    数据工程师是当今市场上最受欢迎的工作之一。数据无处不在,被认为是新时代的能源。公司从不同来源生成大量数据,数据工程师的任务是组织数据信息的收集,处理和存储。但是,要成为一名数据工程师,您需要具备一些出色的技能,例如数据库,大数据,ETL和数据仓库,云计算以及编程语言。但是问题来了,您是否想拥有所有这些技能,或者您想使用所有工具?为简化此操作,让我们抓住机会,直接深入研究数据工程人才市场中的最新技能,这肯定会增加您现有的职业生涯或协助您开始数据工程之旅。

    1-精通一种编程语言

    是的,编程语言是数据工程的必备技能。多数职位概况要求精通至少一种编程语言。这些语言是ETL或数据管道框架所必需的。通用编程语言是总体上掌握数据工程和管道所需的核心编程技能。比如,Java和Scala用于在Hadoop上编写MapReduce作业。Python是数据分析和管道的流行选择,而Ruby也是广泛流行的应用程序粘合剂。

    2- Python是最受关注的技能

    Python!Python!Python!是的,大约70%的工作简介中具有Python作为必备技能,其次是SQL,Java,Scala和其他编程技能,例如R,.Net,Perl,Shell脚本等。

    3- Apache Spark在数据处理层的顶部

    数据处理是将数据收集和处理为可用的所需形式。Apache Spark排在数据处理层的首位,其次是AWS Lambda,Elasticsearch,MapReduce,Oozie,Pig,AWS EMR等。ApacheSpark是一个功能强大的开源框架,可提供交互式处理,实时流处理,批处理,并以非常快的速度,标准接口和易用性进行内存处理。

    4- Rest API通常用于数据收集

    对于需要分析或处理的任何数据,首先需要将其收集或吸收到数据管道中。REST API是用于此目的的常用工具,其次是Sqoop,Nifi,Azure Data Factory,Flume,Hue等。

    5-数据缓冲最常见的是Apache Kafka

    数据缓冲是数据工程框架中的关键部分,在将数据从一个地方移到另一个地方以适应大量数据时,需要临时存储数据。Apache Kafka是常用的分布式数据存储,经过优化可实时摄取和处理流数据。流数据是由数千个数据源连续生成的数据,这些数据源通常同时发送数据记录。流平台需要处理这种不断涌入的数据,并按顺序和增量地处理数据。此类别中的其他工具是Kinesis,Redis Cache, GCP Pub/Sub 等。

    6-存储数据– SQL或NoSQL

    数据需要存储以进行处理,分析或可视化,以生成有价值的结果。数据存储可以采用数据仓库,Hadoop,数据库(RDBMS和NoSQL),数据集市的形式。紧随其后的是Hive,AWS Redshift,MongoDB,AWS S3,Cassandra,GCP BigQuery等SQL技能。

    7-使用Tableau或PowerBI进行数据可视化

    数据可视化是以图形,图表或其他可视格式表示数据或信息。它传达数据与图像的关系。TableauPowerBI领先于竞争对手,其次是SAP Business Objects,Qlik,SPSS,QuickSight,MicroStrategy等。

    8-数据工程云平台

    有不同的基于云或内部部署的平台,可用于不同的数据工程工具集。列出的典型代表是Hadoop,Google Cloud Platform,AWS,AzureApprenda

    好吧,绝非必须精通所有技能和工具,但是通常需要在每个数据管道框架类别中至少掌握其中一个,例如针对云平台的GCP,针对开发的Python,针对数据处理的Apache Spark,针对数据收集的Rest API,针对数据缓冲的Apache Kafka,针对数据存储的Hive,用于数据可视化的PowerBI

  • 相关阅读:
    零基础入门学习Python(11)--列表:一个打了激素的数组(2)
    零基础入门学习Python(10)--列表:一个打了激素的数组
    零基础入门学习Python(9)--了不起的分支和循环3
    零基础入门学习Python(8)--了不起的分支和循环2
    零基础入门学习Python(7)--了不起的分支和循环1
    标量子查询中有ROWNUM=1怎么改?
    零基础入门学习Python(6)--Python之常用操作符
    一次ORA-01555问题分析,及SQL优化。
    零基础入门学习Python(5)--闲聊之Python的数据类型
    Python内置函数(60)——compile
  • 原文地址:https://www.cnblogs.com/jpld/p/13069821.html
Copyright © 2020-2023  润新知