Spark开源学习模块

Spark开源的各模块组成结构：

1. Narrow dependency——窄依赖，子RDD依赖于父RDD中固定的data partition。

2. Stage——分为多个阶段进行作业。

3. Wide Dependency——宽依赖。子RDD对父RDD中的全部data partition依赖。

4. RDD——Resillient Distributed Dataset 分布式数据集。

5. Operation——作用于RDD的各种操作分为transformation和action。

6. Job——作业，一个JOB包括多个RDD及作用于对应RDD上的各种operation。

7. Partition——数据分区，一个RDD中的数据分成不同的多个区。

8. DAG——Directed Acycle graph，有向无环图。RDD之间的依赖关系。

9. Caching Managenment——缓存管理。对RDD的中间计算结果进行缓存管理以加快总体的处理速度。

參考资料（reference）
1.Lightning-Fast Cluster Computing with Spark and Shark
2.Introduction to Spark Internals
3.Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computing

原文地址：https://www.cnblogs.com/cynchanpin/p/7305841.html