数据工程师必备的8项技能，不要只知道Python！

数据工程师必备的8项技能，不要只知道Python！

欢迎关注公众号：机器学习算法与Python实战（ID：tjxj666）

原作：Mohammed M Jubapu
译者：机器学习算法与Python实战（公众号ID：tjxj666）
英文：https://www.linkedin.com/pulse/skills-build-data-engineering-mohammed-m-jubapu/

数据工程师是当今市场上最受欢迎的工作之一。数据无处不在，被认为是新时代的能源。公司从不同来源生成大量数据，数据工程师的任务是组织数据信息的收集，处理和存储。但是，要成为一名数据工程师，您需要具备一些出色的技能，例如数据库，大数据，ETL和数据仓库，云计算以及编程语言。但是问题来了，您是否想拥有所有这些技能，或者您想使用所有工具？为简化此操作，让我们抓住机会，直接深入研究数据工程人才市场中的最新技能，这肯定会增加您现有的职业生涯或协助您开始数据工程之旅。

1-精通一种编程语言

是的，编程语言是数据工程的必备技能。多数职位概况要求精通至少一种编程语言。这些语言是ETL或数据管道框架所必需的。通用编程语言是总体上掌握数据工程和管道所需的核心编程技能。比如，Java和Scala用于在Hadoop上编写MapReduce作业。Python是数据分析和管道的流行选择，而Ruby也是广泛流行的应用程序粘合剂。

2- Python是最受关注的技能

Python！Python！Python！是的，大约70％的工作简介中具有Python作为必备技能，其次是SQL，Java，Scala和其他编程技能，例如R，.Net，Perl，Shell脚本等。

3- Apache Spark在数据处理层的顶部

数据处理是将数据收集和处理为可用的所需形式。Apache Spark排在数据处理层的首位，其次是AWS Lambda，Elasticsearch，MapReduce，Oozie，Pig，AWS EMR等。ApacheSpark是一个功能强大的开源框架，可提供交互式处理，实时流处理，批处理，并以非常快的速度，标准接口和易用性进行内存处理。

4- Rest API通常用于数据收集

对于需要分析或处理的任何数据，首先需要将其收集或吸收到数据管道中。REST API是用于此目的的常用工具，其次是Sqoop，Nifi，Azure Data Factory，Flume，Hue等。

5-数据缓冲最常见的是Apache Kafka

数据缓冲是数据工程框架中的关键部分，在将数据从一个地方移到另一个地方以适应大量数据时，需要临时存储数据。Apache Kafka是常用的分布式数据存储，经过优化可实时摄取和处理流数据。流数据是由数千个数据源连续生成的数据，这些数据源通常同时发送数据记录。流平台需要处理这种不断涌入的数据，并按顺序和增量地处理数据。此类别中的其他工具是Kinesis，Redis Cache, GCP Pub/Sub 等。

6-存储数据– SQL或NoSQL

数据需要存储以进行处理，分析或可视化，以生成有价值的结果。数据存储可以采用数据仓库，Hadoop，数据库（RDBMS和NoSQL），数据集市的形式。紧随其后的是Hive，AWS Redshift，MongoDB，AWS S3，Cassandra，GCP BigQuery等SQL技能。

7-使用Tableau或PowerBI进行数据可视化

数据可视化是以图形，图表或其他可视格式表示数据或信息。它传达数据与图像的关系。Tableau和PowerBI领先于竞争对手，其次是SAP Business Objects，Qlik，SPSS，QuickSight，MicroStrategy等。

8-数据工程云平台

有不同的基于云或内部部署的平台，可用于不同的数据工程工具集。列出的典型代表是Hadoop，Google Cloud Platform，AWS，Azure和Apprenda。

好吧，绝非必须精通所有技能和工具，但是通常需要在每个数据管道框架类别中至少掌握其中一个，例如针对云平台的GCP，针对开发的Python，针对数据处理的Apache Spark，针对数据收集的Rest API，针对数据缓冲的Apache Kafka，针对数据存储的Hive，用于数据可视化的PowerBI。
相关阅读:
零基础入门学习Python（11）--列表：一个打了激素的数组(2)
零基础入门学习Python（10）--列表：一个打了激素的数组
 零基础入门学习Python（9）--了不起的分支和循环3
零基础入门学习Python（8）--了不起的分支和循环2
零基础入门学习Python（7）--了不起的分支和循环1
标量子查询中有ROWNUM=1怎么改？
零基础入门学习Python（6）--Python之常用操作符
 一次ORA-01555问题分析，及SQL优化。
零基础入门学习Python（5）--闲聊之Python的数据类型
 Python内置函数(60)——compile
原文地址：https://www.cnblogs.com/jpld/p/13069821.html

数据工程师必备的8项技能，不要只知道Python！

欢迎关注公众号：机器学习算法与Python实战（ID：tjxj666）

1-精通一种编程语言

2- Python是最受关注的技能

3- Apache Spark在数据处理层的顶部

4- Rest API通常用于数据收集

5-数据缓冲最常见的是Apache Kafka

6-存储数据– SQL或NoSQL

7-使用Tableau或PowerBI进行数据可视化

8-数据工程云平台