参考链接出处:https://www.cnblogs.com/Thomas-blog/p/9728179.html
相关PDF电子版:
链接:https://pan.baidu.com/s/1X_e4koNHs43tdUsF0Kd0Bg
提取码:7a3l
复制这段内容后打开百度网盘手机App,操作更方便哦
一、大数据开发工程师技能图
必须掌握的技能11条
- Java高级(虚拟机、并发)
- Linux 基本操作
- Hadoop(HDFS+MapReduce+Yarn )
- HBase(JavaAPI操作+Phoenix )
- Hive(Hql基本操作和原理理解)
- Kafka
- Storm/JStorm
- Scala
- Python
- Spark (Core+sparksql+Spark streaming )
- 辅助小工具(Sqoop/Flume/Oozie/Hue等)
高阶技能6条
- 机器学习算法以及mahout库加MLlib
- R语言
- Lambda 架构
- Kappa架构
- Kylin
- Alluxio
二、参考资料
1)Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)—30小时
2)Zookeeper学习(可以参照这篇博客进行学习:http://www.cnblogs.com/wuxl360/p/5817471.html)
- Zookeeper分布式协调服务介绍。
- Zookeeper集群的安装部署。
- Zookeeper数据结构、命令。
- Zookeeper的原理以及选举机制。
官网:http://zookeeper.apache.org/
第二阶段(攻坚阶段)
4)Hadoop (《Hadoop 权威指南》)—80小时
-
HDFS
- HDFS的概念和特性。
- HDFS的shell操作。
- HDFS的工作机制。
- HDFS的Java应用开发。
-
MapReduce
- 运行WordCount示例程序。
- 了解MapReduce内部的运行机制。
- MapReduce程序运行流程解析。
- MapTask并发数的决定机制。
- MapReduce中的combiner组件应用。
- MapReduce中的序列化框架及应用。
- MapReduce中的排序。
- MapReduce中的自定义分区实现。
- MapReduce的shuffle机制。
- MapReduce利用数据压缩进行优化。
- MapReduce程序与YARN之间的关系。
- MapReduce参数优化。
-
MapReduce的Java应用开发
官网:http://hadoop.apache.org/
中文文档:http://hadoop.apache.org/docs/r1.0.4/cn/
中文社区:http://www.aboutyun.com/forum-143-1.html
5)Hive(《Hive开发指南》)–20小时
-
Hive 基本概念
- Hive 应用场景。
- Hive 与hadoop的关系。
- Hive 与传统数据库对比。
- Hive 的数据存储机制。
-
Hive 基本操作
- Hive 中的DDL操作。
- 在Hive 中如何实现高效的JOIN查询。
- Hive 的内置函数应用。
- Hive shell的高级使用方式。
- Hive 常用参数配置。
- Hive 自定义函数和Transform的使用技巧。
- Hive UDF/UDAF开发实例。
-
Hive 执行过程分析及优化策略
官网:https://hive.apache.org/
中文入门文档:http://www.aboutyun.com/thread-11873-1-1.html
中文社区:http://www.aboutyun.com/thread-7598-1-1.html
6)HBase(《HBase权威指南》)—20小时
- hbase简介。
- habse安装。
- hbase数据模型。
- hbase命令。
- hbase开发。
- hbase原理。
官网:http://hbase.apache.org/
中文文档:http://abloz.com/hbase/book.html
中文社区:http://www.aboutyun.com/forum-142-1.html
7)Scala(《快学Scala》)–20小时
- Scala概述。
- Scala编译器安装。
- Scala基础。
- 数组、映射、元组、集合。
- 类、对象、继承、特质。
- 模式匹配和样例类。
- 了解Scala Actor并发编程。
- 理解Akka。
- 理解Scala高阶函数。
- 理解Scala隐式转换。
官网:http://www.scala-lang.org/
初级中文教程:http://www.runoob.com/scala/scala-tutorial.html
8)Spark (《Spark 权威指南》)—60小时
第三阶段(辅助工具工学习阶段)
Sqoop(CSDN,51CTO ,以及官网)—20小时
- 数据导出概念介绍
- Sqoop基础知识
- Sqoop原理及配置说明
- Sqoop数据导入实战
- Sqoop数据导出实战、
- Sqoop批量作业操作
推荐学习博客:http://student-lp.iteye.com/blog/2157983
官网:http://sqoop.apache.org/
2)Flume(CSDN,51CTO ,以及官网)—20小时
- FLUME日志采集框架介绍。
- FLUME工作机制。
- FLUME核心组件。
- FLUME参数配置说明。
- FLUME采集nginx日志案例(案例一定要实践一下)
推荐学习博客:http://www.aboutyun.com/thread-8917-1-1.html
官网:http://flume.apache.org
Oozie(CSDN,51CTO ,以及官网)–20小时
- 务调度系统概念介绍。
- 常用任务调度工具比较。
- Oozie介绍。
- Oozie核心概念。
- Oozie的配置说明。
- Oozie实现mapreduce/hive等任务调度实战案例。
推荐学习博客:http://www.infoq.com/cn/articles/introductionOozie
官网:http://oozie.apache.org/
14)Hue(CSDN,51CTO ,以及官网)–20小时
推荐学习博客:http://ju.outofmemory.cn/entry/105162
官网:http://gethue.com/
学习资源网站推荐
- Apache 官网(http://apache.org/)
- Stackoverflow(https://stackoverflow.com/)
- Github(https://github.com/)
- Cloudra官网(https://www.cloudera.com/)
- Databrick官网(https://databricks.com/)
- About 云 :http://www.aboutyun.com/
- CSDN,51CTO (http://www.csdn.net/,http://www.51cto.com/)