• Spark学习体系整理(基础篇、中级篇、高级篇所涉及内容)


    新手刚开始学习比较迷茫,参考下面,然后找相关资料学习

    1 Spark基础篇  
        1.1 Spark生态和安装部署  
            在安装过程中,理解其基本操作步骤。  
            安装部署  
              Spark安装简介  
              Spark的源码编译  
              Spark Standalone安装  
              Spark Standalone HA安装  
              Spark应用程序部署工具spark-submit  
            Spark生态  
              Spark(内存计算框架)  
              SparkSteaming(流式计算框架)  
              Spark SQL(ad-hoc)  
              Mllib(Machine Learning)  
              GraphX(bagel将被取代)  
        1.2 Spark运行架构和解析  
            Spark的运行架构  
              基本术语  
              运行架构  
              Spark on Standalone运行过程  
              Spark on YARN 运行过程  
            Spark运行实例解析  
              Spark on Standalone实例解析  
              Spark on YARN实例解析  


        1.3 Spark的监控和调优  
            Spark的监控  
              Spark UI监控,默认端口是4040  
              Ganglia 监控,大数据监控开源框架  
            Spark调优  
              基础性调优方式  
        1.4 Spark编程模型       
            Spark的编程模型  
              Spark编程模型解析  
              RDD的特点、操作、依赖关系  
              Spark应用程序的配置  
            Spark编程实例解析  
              日志的处理  
        1.5 Spark Streaming原理       
              Spark流式处理架构  
              DStream的特点  
              Dstream的操作和RDD的区别  
              Spark Streaming的优化  
            Spark Streaming实例分析  
              常用的实例程序:  
                      文本实例  
                      Window操作  
                      网络数据处理  
        1.6 Spark SQL原理  
              Spark SQL的Catalyst优化器  
              Spark SQL内核  
              Spark SQL和Hive      
            Spark SQL的实例  
              Spark SQL的实例操作demo  
              Spark SQL的编程,需要网络上查找一些资源          


    2 中级篇  
        2.1 Spark的多语言编程   
            Spark的scala编程  
            Spark的Python编程(Java一定熟悉啦,不用多说了)  
               对应的应用程序实例,理解基本的处理模式。       


        2.2 Spark 机器学习入门  
            机器学习的原理  
            Mllib简介,实例分析  
        2.3 GraphX 入门  
            图论基础  
            GraphX的简介  
            GraphX例程分析  
        2.4 理解Spark与其它项目的区别和联系  
            Spark和MapReduce、Tez  
            Spark的衍生项目BlinkDB,RSpark  
        2.5 关注Spark的作者的blog和权威网站的文档  


    3 高级篇  
       3.1 深入理解Spark的架构和处理模式  

       3.2 Spark源码剖析与研读  
            Spark Core核心模块,  
            掌握下面核心功能的处理逻辑:  
                SparkContext   
                Executor  
                Deploy  
                RDD和Storage  
                Scheduler和Task  
            Spark Examples  
        3.3 思考如何优化和提升,掌握其优缺点,  
            深入思考能不能衍生出有意思的课题。

  • 相关阅读:
    2010全球最值得模仿的230个网站 dodo
    IIS支持解析json dodo
    很好用的界面设计工具——Balsamiq dodo
    git本地分支目录和远程服务器的分支目录不一样的同步方法
    中新赛克——基于工业资产全息画像的工业互联网安全监测平台 规格严格
    解决redis requires ruby version 2.3.0[转载] 规格严格
    fpm包安装 规格严格
    git本地分支目录和远程服务器的分支目录不一样的同步方法[转】 规格严格
    MyBatis逆向工程generatorConfig配置文件的Table中generatedKey的作用[转载] 规格严格
    How to set character_set_database and collation_database to utf8 in my.ini 规格严格
  • 原文地址:https://www.cnblogs.com/snowbook/p/5773474.html
Copyright © 2020-2023  润新知