• Spark 内核架构+宽依赖与窄依赖+基于Yarn的两种提交模式


    一.Spark内核架构

    1、Application
    2、spark-submit
    3、Driver
    4、SparkContext
    5、Master
    6、Worker
    7、Executor
    8、Job
    9、DAGScheduler
    10、TaskScheduler
    11、ShuffleMapTask and ResultTask

    任务调度流程图

    各个RDD之间存在着依赖关系,这些依赖关系就形成有向无环图DAG,DAGScheduler对这些依赖关系形成的DAG进行Stage划分,划分的规则很简单,从后往前回溯,遇到窄依赖加入本stage,遇见宽依赖进行Stage切分。完成了Stage的划分。DAGScheduler基于每个Stage生成TaskSet,并将TaskSet提交给TaskScheduler。TaskScheduler 负责具体的task调度,最后在Worker节点上启动task。

    DAGScheduler

    (1)DAGScheduler对DAG有向无环图进行Stage划分。

    (2)记录哪个RDD或者 Stage 输出被物化(缓存),通常在一个复杂的shuffle之后,通常物化一下(cache、persist),方便之后的计算。

    (3)重新提交shuffle输出丢失的stage(stage内部计算出错)给TaskScheduler

    (4)将 Taskset 传给底层调度器

    a)– spark-cluster TaskScheduler

    b)– yarn-cluster YarnClusterScheduler

    c)– yarn-client YarnClientClusterScheduler

    TaskScheduler

    (1)为每一个TaskSet构建一个TaskSetManager 实例管理这个TaskSet 的生命周期

    (2)数据本地性决定每个Task最佳位置

    (3)提交 taskset( 一组task) 到集群运行并监控

    (4)推测执行,碰到计算缓慢任务需要放到别的节点上重试

    (5)重新提交Shuffle输出丢失的Stage给DAGScheduler

     Spark运行基本流程

    Spark运行基本流程参见下面示意图:

     

    1)       构建Spark Application的运行环境(启动SparkContext),SparkContext向资源管理器(可以是Standalone、Mesos或YARN)注册并申请运行Executor资源;

    2)      资源管理器分配Executor资源并启动Executor,Executor运行情况将随着心跳发送到资源管理器上;

    3)     SparkContext构建成DAG图,将DAG图分解成Stage,并把Taskset发送给Task Scheduler。Executor向SparkContext申请Task,Task Scheduler将Task发放给Executor运行同时SparkContext将应用程序代码发放给Executor。

    4)     Task在Executor上运行,运行完毕释放所有资源。

    Spark运行架构特点

    Spark运行架构特点:

    1. 每个Application获取专属的executor进程,该进程在Application期间一直驻留,并以多线程方式运行tasks。

    2.Spark任务与资源管理器无关,只要能够获取executor进程,并能保持相互通信就可以了。

    3.提交SparkContext的Client应该靠近Worker节点(运行Executor的节点),最好是在同一个Rack里,因为Spark程序运行过程中SparkContext和Executor之间有大量的信息交换;如果想在远程集群中运行,最好使用RPC将SparkContext提交给集群,不要远离Worker运行SparkContext。

    4. Task采用了数据本地性和推测执行的优化机制。

    Spark内核工作流程详细图解

     

     二.宽依赖与窄依赖深度剖析

     三.基于Yarn的两种提交模式

    Spark的三种提交模式
    1、Spark内核架构,其实就是第一种模式,standalone模式,基于Spark自己的Master-Worker集群。
    2、第二种,是基于YARN的yarn-cluster模式。
    3、第三种,是基于YARN的yarn-client模式。
    4、如果,你要切换到第二种和第三种模式,很简单,将我们之前用于提交spark应用程序的spark-submit脚本,加上--master参数,设置为yarn-cluster,或yarn-client,即可。如果你没设置,那么,就是standalone模式。

    基于YARN的两种提交模式深度剖析

     

  • 相关阅读:
    spark 安装
    maven 常用配置
    矩阵SVD在机器学习中的应用
    机器学习—单变量线性回归
    Stanford机器学习
    Memcached 安装和客户端配置
    Lucene 学习之二:数值类型的索引和范围查询分析
    Go-errors第三方包学习
    Go日志库使用-logrus
    Go语言---小白入门-命令行库Cobra的使用
  • 原文地址:https://www.cnblogs.com/Transkai/p/11352288.html
Copyright © 2020-2023  润新知