Shuffle优化

Shuffle优化
1、Map阶段
1. 增大缓冲区的大小：默认100M，可以改为200
2. 增大缓冲区的溢写百分比：默认0.8，可以改为0.9
3. 减少溢写文件的merge次数
4. 采用combiner提前预聚合，减少IO。（不影响业务逻辑的前提下，只能加减，不能做乘除等复杂聚合）
2、Reduce阶段
1. 合理设置map和reduce数：两个都不能设置太少，也不能设置太多。
  - 太少，会导致task等待，延长处理时间
  - 太多，会导致map、reduce任务之间竞争资源，造成处理超时等错误
2. 设置map、reduce共存：调整slowstart.completedmaps参数，使map运行到一定程度后，reduce就开始运行，减少reduce的等待时间
3. 规避使用reduce，因为reduce在用于连接数据集的时候会产生大量的网络消耗
4. 增加每个reduce去map中拿数据的并行度
5. 增大reduce段存储数据内存的大小
3、IO传输

采用数据压缩的方式，减少IO时间。
1. map输入端：主要考虑数据量大小和切片，支持切片的有lzo，Bzip2。Lzo要想支持切片必须创建索引
2. map输出端：主要考虑速度，如：snappy，lzo
3. reduce输出端：主要看具体需求，例如：如果有下一个MR阶段，就要考虑切片，永久保存就考虑压缩率比较大的gzip
4、整体
1. yarn.nodemanager.resouce.memory-mb：nodemanager默认内存8G。需要根据服务器实际配置灵活调整，例如128G内存，配置为100G内存左右
2. yarn.scheduler.maximum-allocation-mb：单任务默认内存8G。需要根据该任务的数据量灵活调整，例如128m数据，配置1G内存
3. mapreduce.map.memory.mb：默认内存大小为1G。控制分配给MapTask内存上限，如果超过会kill掉进程（报：Container is running beyond physical memory limits. Current usage:565MB of512MB physical memory used；Killing Container）。如果数据量是128m，正常不需要调整内存；如果数据量大于128m，可以增加MapTask内存，最大可以增加到4-5g。
4. mapreduce.reduce.memory.mb：默认内存大小为1G。控制分配给ReduceTask内存上限。如果数据量是128m，正常不需要调整内存；如果数据量大于128m，可以增加ReduceTask内存大小为4-5g。
5. mapreduce.map.java.opts：控制maptask堆内存大小。（如果内存不够，报：java.lang.OutOfMemoryError）
6. mapreduce.reduce.java.opts：控制reducetask堆内存大小。（如果内存不够，报：java.lang.OutOfMemoryError）
7. 增加maptask和reducetask的CPU核数
8. 增加每个container的CPU核数和内存
9. 在hdfs-site.xml文件中配置多目录
10. dfs.namenode.handler.count=20*log2(cluster size)： namenode的一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。
相关阅读:
jquery 中 $.map 的使用方法
 数据库 'MessageManage' 的事务日志已满。若要查明无法重用日志中的空间的原因，请参阅 sys.databases 中的 log_reuse_wait_desc 列。
Post提交
 MD5加密、时间戳转换、base64算法加密、解密
 C#中timer类的用法
 软件项目版本号的命名规则及格式
 SQL Server数据库脚本备份与还原
 C# Out，Ref 学习总结
 在线工具
 构造和析构的顺序
原文地址：https://www.cnblogs.com/hyunbar/p/13477184.html

1、Map阶段

2、Reduce阶段

3、IO传输

4、整体