bypass SortShuffleManager的bypass运行机制

下图说明了bypass SortShuffleManager的原理。bypass运行机制的触发条件如下：

此时task会为每个下游task都创建一个临时磁盘文件，并将数据按key进行hash然后根据key的hash值，将key写入对应的磁盘文件之中。当然，写入磁盘文件时也是先写入内存缓冲，缓冲写满之后再溢写到磁盘文件的。最后，同样会将所有临时磁盘文件都合并成一个磁盘文件，并创建一个单独的索引文件。

该过程的磁盘写机制其实跟未经优化的HashShuffleManager是一模一样的，因为都要创建数量惊人的磁盘文件，只是在最后会做一个磁盘文件的合并而已。因此少量的最终磁盘文件，也让该机制相对未经优化的HashShuffleManager来说，shuffle read的性能会更好。

而该机制与普通SortShuffleManager运行机制的不同在于：第一，磁盘写机制不同；第二，不会进行排序。也就是说，启用该机制的最大好处在于，shuffle write过程中，不需要进行数据的排序操作，也就节省掉了这部分的性能开销。

相关阅读:
条件概率-独立事件-互斥事件-对立事件
数学
可视化：svg相关基础
移动端调用摄像头（相机）相册
移动端的事件点透及原因
ios滑动流畅（丝般顺滑）滚动
动画框架基础部分
css美化select标签，兼容ie10 ie10+，chrome。但不支持ie9 ie9-
ie11 调试工具不能使用
css使用

原文地址：https://www.cnblogs.com/sunpengblog/p/11915439.html