spark shuffle 机制 - 润新知

spark shuffle 机制

spark shuffle 分为两种

1.byPassSortShuffle 发生条件分区数<=200；无排序及聚合操作
主要是直接按照分区号写文件，有多少分区写多少文件不做任何排序，简单直接

2.baseSortShuffle 发生条件
1.代码中指定聚合但是没指定排序规则，会按照分区排序，并按照key的hashcode排序，在归并之时维护两个数组做聚合及输出
2.代码中指定聚合并指定了排序规则，会按照分区排序，并按照key的指定规则排序（这个过程跟mr的流程一样，不多做叙述）
3.代码中无聚合无指定排序规则，只会按照分区排序，不对key作操作，归并之时也只按照分区号排序，直接写入相应分区
相关阅读:
HTML5的结构
 关于本Blog
Luogu2568 GCD
CH5102 Mobile Service
Luogu3146 [USACO16OPEN]248
Mobile Service
23、Echarts拓扑图、D3拓扑图
 22、startAngle: 85-88、ECharts之仪表盘、仪表盘镂空且导入外来图片、品牌车、不等距折线图、图片右侧空白再出图片、心电图、多数据单环、单数据单环、单数据双环、饼图效果、经纬度、10年经济指标（无局部放大）
21、angular1之分页组件（包含在复杂弹窗组件里，分页组件包含勾选、过滤、拖拽、翻页记忆、请求服务、转圈服务、简单弹窗组件、插槽ng-transclude）
19、angular1全局方法、五种服务类型、过滤、重要指令（ng-）、单选框|复选框|下拉框三者联合案例展示、下拉表格嵌套、子组件向父组件传值、directive自定义标签、获取不到新value、[].forEach|$.each|angular.forEach用法示例、undefined+1、ui.router路由模块、ui.router实际执行步骤、jqLite的API参考、前端路由、类
原文地址：https://www.cnblogs.com/jiangxiaoxian/p/9531901.html

Copyright © 2020-2023 润新知