[Spark]-Join方式的实现

对于Spark来说,有3种Join的实现方式

　　Broadcast Hash Join

　　Shuffle Hash Join

　　Sort Merge Join

　　Broadcast Hash Join和Shuffle Hash Join都是hash-join 区别只在于先广播还是先shuffle. Sort Merge Join

　　Hash Join

　　　　hash-join 有两个概念基准表(Build Table)与探测表(Probe Table). 整个hash-join的流程如下

　　　　　　决定两表关联中,谁作为基准表,谁作为探测表(通常情况下小表作为基准表,大表作为探测表)

　　　　　　然后依次读取基准表,将基准表的连接键取hash(键hash值,键值)放入内存中(内存不够会溢出到磁盘),作为hash-table

　　　　　　然后依次读取探测表,取基准表的连接键取hash,查看hash-table中键hash值是否存在,如果存在则比较键值是否相等,如果仍然相等,则两条记录匹配上了

　　　　这里可以看出

　　　　　　hash-join正常情况下效率是非常高的,因为这已非常接近最优解 O(n)+O(m)了

　　　　　　hash-join适合至少有一个小表的情况下,否则构建的hash-table容易溢出到磁盘

　　Sort Merge Join　　　　

　　　　Sort-Merge-Join的处理核心是先排序,先将两张表都按照连接键排序

　　　　未完

　　参考 https://www.cnblogs.com/0xcafedaddy/p/7614299.html

相关阅读:
Java代码输出是“father”还是“child”（二）
Java代码输出是“father”还是“child”（一）
“var arr = []; ”和 “var arr = {};” 的区别
Servlet页面间对象传递的方法
利用OWI优化SQL
Oracle 12c 12.1.0.1.0管理控制文件官方文档说明
计算工资
检测本地网络连接状态断开以及恢复的方法
linux 批量创建用户
比较两表数据

原文地址：https://www.cnblogs.com/NightPxy/p/9256580.html