on case when a.user_id is null then concat(‘jd-hive’,rand() ) else a.user_id end = b.user_id;
如果两个表join 时 关联键 有众多null 值 ,null值数据会被分发到某一个节点 ,会导致数据倾斜 导致process 运行缓慢 或是因为内存溢出等原因被系统识别kill
on case when a.user_id is null then concat(‘jd-hive’,rand() ) else a.user_id end = b.user_id;
如果两个表join 时 关联键 有众多null 值 ,null值数据会被分发到某一个节点 ,会导致数据倾斜 导致process 运行缓慢 或是因为内存溢出等原因被系统识别kill