什么是数据倾斜?
数据不可避免的出现离群值,并导致数据倾斜,数据倾斜会显著的拖慢MR的执行速度
常见数据倾斜有以下几类
1.数据频率倾斜 某一个区域的数据量要远远大于其他区域
2.数据大小倾斜 一部分记录的大小远远大于平均值
解决数据倾斜的常用方法
什么是数据倾斜?
数据不可避免的出现离群值,并导致数据倾斜,数据倾斜会显著的拖慢MR的执行速度
常见数据倾斜有以下几类
1.数据频率倾斜 某一个区域的数据量要远远大于其他区域
2.数据大小倾斜 一部分记录的大小远远大于平均值
解决数据倾斜的常用方法