Spark系列 (1) Spark基础

Spark

1. Spark基础

Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。

下图是Spark的发展历史，

1.1 Spark核心模块

Spark Core：实现了 Spark 的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core 中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称 RDD)的 API 定义。
Spark SQL：是 Spark 用来操作结构化数据的程序包。通过 Spark SQL，我们可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。Spark SQL 支持多种数据源，比如 Hive 表、Parquet 以及 JSON 等。
Spark Streaming：是 Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API，并且与 Spark Core 中的 RDD API 高度对应。
Spark MLlib：提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。
集群管理器：Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark 支持在各种集群管理器(Cluster Manager)上运行，包括 Hadoop YARN、Apache Mesos，以及 Spark 自带的一个简易调度器，叫作独立调度器。

Spark特点：

1）快：与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。

2）易用：Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的Shell，可以非常方便地在这些Shell中使用Spark集群来验证解决问题的方法。

3）通用：Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用。减少了开发和维护的人力成本和部署平台的物力成本。

4）兼容性：Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的YARN和 Apache Mesos作为它的资源管理和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase等。这对于已经部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark的强大处理能力

1.2 Spark与Hadoop的区别

Hadoop是一种分布式存储系统，而Spark是一种分布式计算框架。与其说是Spark和Hadoop的区别，倒不如说是Map Reduce和Spark的区别。

下图展示了两者最主要的区别，

MapReduce慢的原因：频繁读写磁盘导致额外的复制，序列化和磁盘IO开销。
Spark为何快：内存计算+DAG（delay scheduling）

比较项目	Map Reduce	Spark
框架	MapReduce由Map和Reduce两个阶段组成，并且通过Shuffle将两个阶段连接起来。（套用MapReduce模型解决问题，不得不将问题分解为若干个有依赖关系的子问题，每个子问题对应一个MapReduce作业，最终所有作业形成一个DAG）	Spark是通用的DAG框架，可以将多个有依赖关系的作业转换成一个大的DAG。（核心思想是将Map和Reduce两个操作进一步拆分为多个元操作，并通过一些控制程序组装后形成一个大的DAG作业。）
中间结果存储方式（最大区别）	Map 步骤是在不同机器上独立且同步运行的，它的主要目的是将数据转换为 key-value 的形式；而 Reduce 步骤是做聚合运算，它也是在不同机器上独立且同步运行的。Map 和 Reduce 中间夹杂着一步数据移动，也就是 shuffle，这步操作会涉及数量巨大的网络传输（network I/O），需要耗费大量的时间。由于 MapReduce 的框架限制，一个 MapReduce 任务只能包含一次 Map 和一次 Reduce，计算完成之后，MapReduce 会将运算结果写回到磁盘中（更准确地说是分布式存储系统）供下次计算使用。这样的读写数据会引起大量的网络传输以及磁盘读写，极其耗时，而且它们都是没什么实际价值的废操作。	在Spark中，使用内存（内存不够使用本次磁盘）替代了使用HDFS存储中间结果。对于迭代运算效率更高。
操作模型	Hadoop只提供了Map和Reduce两种操作，所有作业都得转换成Map和Reduce的操作	Spark提供了多种数据集操作类型，比如transformation包括map，filter，groupByKey等，actions操作包括Count，collect，reduce，lookup等等。
应用场景	离线大规模分析处理	Hadoop适用的场景基本都合适，特别对于迭代计算相比Hadoop有更大的优势。（只有map操作或者只有一次reduce操作的场景下，两种性能差别不大。）

总结：Spark采用更先进的架构，在灵活性、易用性、性能等方面都比MapReduce更有优势，有取代MapReduce的趋势，但hdfs和yarn依然有其不可替代的作用。

1.3 Spark的4种运行模式

目前Spark的运行模式主要有以下4种:

local:主要用于开发调试Spark应用程序
Standlone:利用Spark自带的资源管理与调度器运行Spark集群，采用Master/Slave结构，为解决单点故障，可以采用Zookeeper实现高可靠(High Availability, HA)
Apache Mesos:运行在著名的Mesos资源管理框架基础之上，该集群运行模式将资源管理管理交给Mesos,Spark只负责运行任务调度和计算
Hadoop YARN:集群运行在Yarn资源管理器上，资源管理交给YARN，Spark只负责进行任务调度和计算。

一个完整的Spark应用程序，在提交集群运行时，它涉及到如下图所示的组件：

每个Spark应用都由一个驱动器程序(drive program)来发起集群上的各种并行操作。驱动器程序包含应用的main函数，驱动器负责创建SparkContext,SparkContext可以与不同种类的集群资源管理器(Cluster Manager)，例如Hadoop YARN，Mesos进行通信，获取到集群进行所需的资源后，SparkContext将得到集群中工作节点(Worker Node)上对应的Executor(不同的Spark程序有不同的Executor,他们之间是相互独立的进程，Executor为应用程序提供分布式计算以及数据存储功能)，之后SparkContext将应用程序代码发送到各Executor,最后将任务(Task)分配给executors执行。

ClusterManager:在Standalone模式中即为Master节点（主节点），控制整个集群，监控Worker.在YARN中为ResourceManager
Worker:从节点，负责控制计算节点，启动Executor或Driver。在YARN模式中为NodeManager,负责计算节点的控制。
Driver:运行Application的main()函数并创建SparkContect。
Executor:执行器，在worker node上执行任务的组件、用于启动线程池运行任务。每个Application拥有独立的一组Executor。
SparkContext:整个应用的上下文，控制应用的生命周期。
RDD：Spark的计算单元，一组RDD可形成执行的有向无环图RDD Graph。
DAG Scheduler:根据作业(Job)构建基于Stage的DAG，并提交Stage给TaskScheduler。
TaskScheduler:将任务(Task)分发给Executor。
SparkEnv:线程级别的上下文，存储运行时的重要组件的引用。

SparkEnv内构建并包含如下一些重要组件的引用。

1、MapOutPutTracker:负责Shuffle元信息的存储。
2、BroadcastManager:负责广播变量的控制与元信息的存储。
3、BlockManager:负责存储管理、创建和查找快。
4、MetricsSystem:监控运行时性能指标信息。
5、SparkConf:负责存储配置信息。

接下来介绍的4种运行模式，都遵循了下图所示的通用运行流程，

任务提交后，都会先启动Driver进程，随后Driver进程向集群管理器注册应用程序，之后集群管理器根据此任务的配置文件分配Executor并启动，当Driver所需的资源全部满足后，Driver开始执行main函数，Spark查询为懒执行，当执行到action算子时开始反向推算，根据宽依赖进行 stage的划分，随后每一个stage对应一个taskset，taskset中有多个task，根据本地化原则，task会被分发到指定的Executor去执行，在任务执行的过程中，Executor也会不断与Driver进行通信，报告任务运行情况。

1.3.1 Local模式

Local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试。它可以通过以下集中方式设置Master。

local: 所有计算都运行在一个线程当中，没有任何并行计算，通常我们在本机执行一些测试代码，或者练手，就用这种模式;

local[K]: 指定使用几个线程来运行计算，比如local[4]就是运行4个Worker线程。通常我们的Cpu有几个Core，就指定几个线程，最大化利用Cpu的计算能力;

local[*]: 这种模式直接帮你按照Cpu最多Cores来设置线程数了。

提交任务的简易流程如下：

其中最重要的角色就是driver和executor。

Driver（驱动器）

Spark 的驱动器是执行开发程序中的 main 方法的进程。它负责开发人员编写的用来创建 SparkContext、创建 RDD，以及进行 RDD 的转化操作和行动操作代码的执行。如果你是用 spark shell，那么当你启动 Spark shell 的时候，系统后台自启了一个 Spark 驱动器程序，就是在 Spark shell 中预加载的一个叫作 sc 的 SparkContext 对象。如果驱动器程序终止，那么 Spark 应用也就结束了。主要负责：

1）把用户程序转为任务
2）跟踪 Executor 的运行状况
3）为执行器节点调度任务
4）UI 展示应用运行状况

Executor（执行器）

Spark Executor 是一个工作进程，负责在 Spark 作业中运行任务，任务间相互独立。 Spark 应用启动时，Executor 节点被同时启动，并且始终伴随着整个 Spark 应用的生命周期而存在。如果有 Executor 节点发生了故障或崩溃，Spark 应用也可以继续执行，会将出错节点上的任务调度到其他 Executor 节点上继续运行。主要负责：

1）负责运行组成 Spark 应用的任务，并将结果返回给驱动器进程；
2）通过自身的块管理器（Block Manager）为用户程序中要求缓存的 RDD 提供内存式存储。RDD 是直接缓存在 Executor 进程内的，因此任务可以在运行时充分利用缓存数据加速运算。

下面以最简单的wordCount程序为例，说明整个数据流程。

1.3.2 Standalone模式

构建一个由 Master+Slave 构成的 Spark 集群，Spark 运行在集群中。整个运行流程如下：

这种模式下，可以利用Zookeeper进行HA配置。

1.3.3 Yarn模式

此模式下，Spark客户端直接连接Yarn，不需要额外构建Spark集群，有yarn-client和yarn-cluster两种模式。主要区别在于：Driver程序的运行节点。

yarn-client：Driver 程序运行在客户端，适用于交互、调试，希望立即看到 app 的输出。
yarn-cluster：Driver 程序运行在由 RM（ResourceManager）启动的 AP（APPMaster），适用于生产环境。

1.3.4 Mesos模式

Spark 客户端直接连接 Mesos；不需要额外构建 Spark 集群。国内应用比较少，更多的是运用 yarn 调度。

1.3.5 总结

几种模式的对比如下：

1.4 Spark重要概念

SparkContext 是程序运行调度的核心，由高层调度器DAGScheduler划分程序的每个阶段，底层调度器
TaskScheduler划分每个阶段的具体任务。
SchedulerBankend 管理整个集群中为正在运行的程序分配的计算资源Executor。
DAG （Directed Acyclic Graph）有向无环图。Spark实现了DAG计算模型，DAG计算模型是指将一个计算任务按照计算规则分解为若干子任务，这些子任务之间根据逻辑关系构建成有向无环图
RDD （Resilient Distributed Dataset）弹性分布数据集。是不可变的、Lazy级别的、粗粒度的（数据集级别的而不是单个数据级别的）数据集合，包含一个或多个数据分片，即Partition。
DAGScheduler 负责高层调度，划分Stage并生成程序运行的有向无环图。
TaskScheduler 负责具体Stage内部的底层调度，具体Task的调度、容错等
Job （正在执行的叫ActiveJob）是Top-level的工作单元，每个Action算子都会触发一次Job，一个Job可能包含一个或多个Stage
Stage 是用来计算中间结果的Tasksets。Tasksets中的Task逻辑对于同一RDD内的不同Partition都一样。Stage在Shuffle的地方产生，此时下一个Stage要用到上一个Stage的全部数据，所以要等上一个Stage全部执行完才能开始。Stage有两种： ShuffleMapStage和ResultStage，除了最后一个Stage是ResultStage外，其他的Stage都是ShuffleMapStage。 ShuffleMapStage会产生中间结果，以文件的方式保存在集群里，Stage经常被不同的Job共享，前提是这些Job重用了同一个RDD。
Task任务执行的工作单位，每个Task会被发送到一个节点上，每个Task对应RDD的一个Partition。Taskset划分的Stage会转换成一组相关联的任务集。
Transformation和Action Transformation算子会由DAGScheduler划分到pipeline中，是Lazy级别的不会触发任务的执行；Action算子会触发Job来执行pipeline中的运算。

搜索『后端精进之路』并关注，立刻获取最新文章和价值2000元的BATJ精品面试课程。

后端精进之路.png

相关阅读:
Codeforces 377 A Maze【DFS】
分糖果 5.0升级版
 poj_1201_Intervals
NOIP2016全国信息学分区联赛提高组第二试组合问题
 NOIP2016全国信息学分区联赛提高组第一试玩具迷题
 NOIP 2016提高组总结
 2016年提高组模拟试题（20161105）Mahjong
打鼹鼠
 2015年普级组模拟试题小X的矩阵
 交汇的火力
原文地址：https://www.cnblogs.com/way2backend/p/16187795.html