hive grouping sets 实现原理

先下结论：

看了hive 1.1.0 grouping sets 实现（从源码及执行计划都可以看出与kylin实现不一样），（前提是可累加，如sum函数）他并没有像kylin一样先按照group by 全字段聚合再上卷。
hive实现就是无脑复制，可以理解成是 group by grouping sets 所有组合然后在union 起来（grouping sets会比后者少扫描grouping sets组合份原始数据。
tez和sparksql grouping sets之所以快可能是跟kylin实现差不多，先汇总再上卷来减少数据无脑复制成本，这个spark实现有空可以看看）

从执行计划就可以看出 hive grouping sets 实现相当于就一个stage，是做不到先聚合再上卷的。其实就是把原始数据复制grouping sets 组合份

相关阅读:
“三本主义”引领中国式管理
“赢”销有道
3分钟打动客户：电话销售实战技能训练
乌合之众文摘
Android Log工具类
IOC原理
解决header,footer等HTML5标签在IE(IE6/IE7/IE8)无效的方法
让浏览器不再显示 https 页面中的 http 请求警报<meta http-equiv="Content-Security-Policy" content="upgrade-insecure-requests">
用meta name="renderer" content="webkit|ie-comp|ie-stand"来切换360双核安全浏览器的极速模式和兼容模式
前端开发的正确姿势——各种文件的目录结构规划及引用

原文地址：https://www.cnblogs.com/jiangxiaoxian/p/9695291.html