一、基础
1、Reduce join 会给Reduce带来过多的负载,容易使数据发生倾斜
2、Map join 适用于一张小表和一张大表
二、实现
1、在Mapper的setup阶段,将文件读取到缓存集合中(小文件)
2、在驱动函数中加载缓存
job.addCacheFile(new URI(路径));
一、基础
1、Reduce join 会给Reduce带来过多的负载,容易使数据发生倾斜
2、Map join 适用于一张小表和一张大表
二、实现
1、在Mapper的setup阶段,将文件读取到缓存集合中(小文件)
2、在驱动函数中加载缓存
job.addCacheFile(new URI(路径));