spark join broadcast优化 - 润新知

spark join broadcast优化
在大量数据中对一些字段进行关联。

举例

ipTable：需要进行关联的几千条ip数据(70k)
hist：历史数据（百亿级别）

直接join将会对所有数据进行shuffle，需要大量的io操作，相同的key会在同一个partition中进行处理，任务的并发度也收到了限制。

使用broadcast将会把小表分发到每台执行节点上，因此，关联操作都在本地完成，基本就取消了shuffle的过程，运行效率大幅度提高。

样本数据(2000w)性能测试对比

小表没有进行broadcast

进行了broadcast,可以看到连shuffle过程都省略了

实现代码(spark1.5)
```
//读取ip表
val df = ...

//如果数据小于设定的广播大小则将该表广播,默认10M
df.cache.count

//注册表
df.registerTempTable("ipTable")

//关联
sqlContext.sql("select * from (select * from ipTable)a join (select * from hist)b on a.ip = b.ip")

......
```
设置表广播的阈值，如果有需求且内存足够，可以将该值提高，默认10M

spark.sql.autoBroadcastJoinThreshold
相关阅读:
一切都是对象
 对象入门
 同步计算输入的各个数的总和与平均值
 与时间有关的类Date,DateFormat,Calendar
获取文件信息
 串行化
 分解
 高速缓存
 压缩
 MyCAT实现MySQL的读写分离
原文地址：https://www.cnblogs.com/zhangyunlin/p/6168164.html

最新文章
动态绑定
 等价与类似关系
 继承：重新使用接口
 方案的重复使用
 实现方案的隐藏
 对象的接口
 抽象的进步
 设计范式
 网络编程
 多线程

热门文章
创建窗口和程序片
 传递和返回对象
 运行期类型鉴定
 Java IO系统
 违例差错控制
 对象的容纳
 多形性
 类再生
 隐藏实现过程
 控制程序流程

Copyright © 2020-2023 润新知