【Spark】源码分析之RDD的生成及stage的切分

【Spark】源码分析之RDD的生成及stage的切分

一、概述
Spark源码整体的逻辑（spark1.3.1）：
从saveAsTextFile（）方法入手
-->saveAsTextFile()
--> saveAsHadoopFile()
--> 封装hadoopConf，并传入saveAsHadoopDataset（）方法
--> 拿到写出流SaprkHadoopWriter，调用self.context.runJob(self,writeToFile)
--> runJob方法中，使用dagScheduler划分stage
--> submitJob开始提交作业
-->任务处理器的post方法启动线程，获取队列中的任务，并调用onRecevie()方法提交任务
-->调用handleJobSubmitted，使用newStage中的getParentStage方法对stage进行切分
-->getParentStage方法中，使用HashSet、Stack来存放stage和RDD，用栈来存储RDD主要是为了便于后面通过循环进行模式匹配，判断该RDD和父RDD的依赖关系，如果是宽依赖就会生成stage，如果是窄依赖，就会继续找父RDD
二、Spark源码详情
1. 在spark1.3.1的源码中，saveAsTextFile的关键代码在于它内部调用了saveAsHadoopFile（）方法。

2. 进入到saveAsHadoopFile()方法中，首先spark会对配置信息进行封装，然后将配置信息传入saveAsHadoopDataset( )方法

3. saveAsHadoopDataset()方法中将会拿到Spark的写出流，并调用runJob方法准备开始提交作业。

4. 进入runJob方法中，会使用dagScheduler进行stage的切分

5. submitJob开始提交作业

6. 获取finalRDD的分区数，并调用任务处理器的post方法，循环取出数据放入队列中

7. post方法中，将启动一个线程，将获取队列中的任务，并调用onRecevie()方法提交任务

8. 进入onReceive()，可以看到它是一个抽象类中的方法

9. 方法的实现在DAGScheduler中，对方法进行模式匹配。匹配到任务提交的方法后，调用handleJobSumitted提交任务

10. handleJobSubmitted中，使用newStage中的getParentStage方法对stage进行切分

11. getParentStage方法中，使用HashSet、Stack来存放stage和RDD，用栈来存储RDD主要是为了便于后面通过循环进行模式匹配，判断该RDD和父RDD的依赖关系，如果是宽依赖就会生成stage，如果是窄依赖，就会继续找父RDD
相关阅读:
xinetd编程
 我是这样学习Linux下C语言编程的编译命令gcc的使用
 Linux man命令的使用方法
 string.Format出现异常"输入的字符串格式有误"的解决方法
 .net 发送邮件
 cross join
解决ASP.NET中的各种乱码问题
 网站推广优化教程100条(SEO，网站关键字优化，怎么优化网站，如何优化网站关键字)
网页中嵌入Excel控件
 C#基础之集合队列
原文地址：https://www.cnblogs.com/snova/p/9195694.html

【Spark】源码分析之RDD的生成及stage的切分

一、概述

Spark源码整体的逻辑（spark1.3.1）：

二、Spark源码详情