通过案例对 spark streaming 透彻理解三板斧之二：spark streaming运行机制

通过案例对 spark streaming 透彻理解三板斧之二：spark streaming运行机制

本期内容：

　　1. Spark Streaming架构

　　2. Spark Streaming运行机制

　　

　　Spark大数据分析框架的核心部件： spark Core、spark Streaming流计算、GraphX图计算、MLlib机器学习、Spark SQL、Tachyon文件系统、SparkR计算引擎等主要部件.

　　

　　Spark Streaming 其实是构建在spark core之上的一个应用程序，要构建一个强大的Spark应用程序，spark Streaming是一个值得借鉴的参考，spark Streaming涉及多个job交叉配合，基本涉及到了spark的所有的核心组件，精通掌握spark streaming是至关重要的。

　　Spark Streaming基础概念理解：

　　　　1. 离散流：(Discretized Stream ,DStream):这是spark streaming对内部的持续的实时数据流的抽象描述，也即我们处理的一个实时数据流，在spark streaming中对应一个DStream ；

　　　　2. 批数据：将实时流时间以时间为单位进行分批，将数据处理转化为时间片数据的批处理；

　　　　3. 时间片或者批处理时间间隔：逻辑级别的对数据进行定量的标准，以时间片作为拆分流数据的依据；

　　　　4. 窗口长度：一个窗口覆盖的流数据的时间长度。比如说要每隔5分钟统计过去30分钟的数据，窗口长度为6，因为30分钟是batch interval 的6倍；

　　　　5. 滑动时间间隔：比如说要每隔5分钟统计过去30分钟的数据，窗口时间间隔为5分钟；

　　　　6. input DStream :一个inputDStream是一个特殊的DStream 将spark streaming连接到一个外部数据源来读取数据。

　　　　7. Receiver :长时间（可能7*24小时）运行在Excutor之上，每个Receiver负责一个inuptDStream (比如读取一个kafka消息的输入流)。每个Receiver,加上inputDStream 会占用一个core/slot ；

　　　

　　Spark Core处理的每一步都是基于RDD的，RDD之间有依赖关系。下图中的RDD的DAG显示的是有3个Action，会触发3个job，RDD自下向上依赖，RDD产生job就会具体的执行。从DSteam Graph中可以看到，DStream的逻辑与RDD基本一致，它就是在RDD的基础上加上了时间的依赖。RDD的DAG又可以叫空间维度，也就是说整个Spark Streaming多了一个时间维度，也可以成为时空维度。

　　

　　从这个角度来讲，可以将Spark Streaming放在坐标系中。其中Y轴就是对RDD的操作，RDD的依赖关系构成了整个job的逻辑，而X轴就是时间。随着时间的流逝，固定的时间间隔（Batch Interval）就会生成一个job实例，进而在集群中运行。

　　对于Spark Streaming来说，当不同的数据来源的数据流进来的时候，基于固定的时间间隔，会形成一系列固定不变的数据集或event集合（例如来自flume和kafka）。而这正好与RDD基于固定的数据集不谋而合，事实上，由DStream基于固定的时间间隔行程的RDD Graph正是基于某一个batch的数据集的。

　　从上图中可以看出，在每一个Batch上，空间维度的RDD依赖关系都是一样的，不同的是这个五个Batch流入的数据规模和内容不一样，所以说生成的是不同的RDD依赖关系的实例，所以说RDD的Graph脱胎于DStream的Graph，也就是说DStream就是RDD的模板，不同的时间间隔，生成不同的RDD Graph实例。

　　从源码解读DStream :

　　

　　从这里可以看出，DStream就是Spark Streaming的核心，就想Spark Core的核心是RDD，它也有dependency和compute。更为关键的是下面的代码：

　　这是一个HashMap，以时间为key，以RDD为Value，这也正应证了随着时间流逝，不断的生成RDD，产生依赖关系的job，并通过JbScheduler在集群上运行。再次验证了DStream就是RDD的模版。

　　DStream可以说是逻辑级别的，RDD就是物理级别的，DStream所表达的最终都是通过RDD的转化实现的。前者是更高级别的抽象，后者是底层的实现。DStream实际上就是在时间维度上对RDD集合的封装，DStream与RDD的关系就是随着时间流逝不断的产生RDD，对DStream的操作就是在固定时间上操作RDD。

　　总结：

　　　　在空间维度上的业务逻辑作用于DStream，随着时间的流逝，每个Batch Interval形成了具体的数据集，产生了RDD，对RDD进行Transform操作，进而形成了RDD的依赖关系RDD DAG，形成Job。然后JobScheduler根据时间调度，基于RDD的依赖关系，把作业发布到Spark Cluster上去运行，不断的产生Spark作业。
相关阅读:
各语言最原始数据库访问组件封装DBHelper
Andorid 之日历控件,可左右滑动，包含公历，农历，节假日等
 Andorid 之日历控件,可左右滑动，包含公历，农历，节假日等
 Andorid 之日历控件,可左右滑动，包含公历，农历，节假日等
 Andorid 之日历控件,可左右滑动，包含公历，农历，节假日等
 如何学习Python?
如何学习Python?
如何学习Python?
如何学习Python?
写颗搜索二叉树动动脑，开启今年的旅程，新年快乐
原文地址：https://www.cnblogs.com/yinpin2011/p/5455212.html