Spark宽依赖、窄依赖 - 润新知

Spark宽依赖、窄依赖
在Spark中，RDD（弹性分布式数据集）存在依赖关系，宽依赖和窄依赖。

宽依赖和窄依赖的区别是RDD之间是否存在shuffle操作。

窄依赖

窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用，即一个父RDD对应一个子RDD或多个父RDD对应一个子RDD
- map,filter,union属于窄依赖
- 窄依赖对于流水化作业有优化效果
- 每一个RDD算子都是一个fork/join操作，join会写入磁盘，流水线作业优化后fork，中间不join写入磁盘
宽依赖

宽依赖指子RDD的每个分区都依赖于父RDD的多个分区
- groupby和join属于宽依赖
- DAGScheduler从当前算子往前推，遇到宽依赖，就生成一个stage
分区划分规则
1. 分区如何划分
2. 分区该放到集群内哪个节点
Spark默认两种划分器：HashPartitioner和RangePartitioner

宽依赖、窄依赖的概念不仅用在调度，对容错也有用，如果一个节点损坏，运算是窄依赖，只要把丢失的父节点分区重新计算即可。而宽依赖的话，就需要使用checkpoint来检查和重新计算。

逻辑上，每个RDD的算子都是一个fork/join（此join非上文的join算子，而是指同步多个并行任务的barrier）：把计算fork到每个分区，算完后join，然后fork/join下一个RDD的算子。如果直接翻译到物理实现，是很不经济的：一是每一个RDD（即使是中间结果）都需要物化到内存或存储中，费时费空间；二是join作为全局的barrier，是很昂贵的，会被最慢的那个节点拖死。如果子RDD的分区到父RDD的分区是窄依赖，就可以实施经典的fusion优化，把两个fork/join合为一个；如果连续的变换算子序列都是窄依赖，就可以把很多个 fork/join并为一个，不但减少了大量的全局barrier，而且无需物化很多中间结果RDD，这将极大地提升性能。Spark把这个叫做流水线（pipeline）优化。
相关阅读:
Ubuntu创建VLAN接口配置
 Ubuntu配置网桥方法
 Ubuntu重启网卡的三种方法
 kvm存储池和存储卷
 ubuntu如何切换到root用户
 修改Ubuntu默认apt下载源
 Java之泛型<T> T与T的用法（转载）
Java关键字(一)——instanceof（转载）-BeanCopier相关
 java代码之美（12）---CollectionUtils工具类（转载）
Lombok-注解@Slf4j的使用
原文地址：https://www.cnblogs.com/chenshaowei/p/12376360.html

Copyright © 2020-2023 润新知