Hive 查询语句的一些优化

Hive 查询语句的一些优化

声明：本文内容中的效率对比都是参照大佬博客写的，我只是一个搬运工。。。

group by 和 distinct 去重

区别

俩者都有去重的作用，用法上当然也有区别：

distinct：

distinct是将所有查询的字段进行对比去重，所有字段都完全相同才会去重

　　　　distinct 必须放在查询字段开头进行查询，这样就会导致如果后面还有字段，解析器会默认将它也划入去重的字段中，如 select distinct name,id from user，只有名字和id相同才会去重

所以在实际应用中，我们经常结合count （）来返回不重复数据的条数————count(distinct id)

group by：

group by 根据字段进行去重，字段相同就会去重

如果想进行统计行数的操作，还得再嵌套一个表

就效率而言，

不管是加不加索引 group by 都比 distinct 快。因此使用的时候建议选 group by

参考链接：

https://www.cnblogs.com/zox2011/archive/2012/09/12/2681797.html

https://blog.csdn.net/dm_source/article/details/80246586

count （*）、count（1）、count （column）

首先讲一下用法：

（1）count(*)---包括所有列，返回表中的记录数，相当于统计表的行数，在统计结果的时候，不会忽略列值为NULL的记录。

（2）count(1)---忽略所有列，1表示一个固定值，也可以用count(2)、count(3)代替，在统计结果的时候，不会忽略列值为NULL的记录。与count（*）作用相同

（3）count(列名)---只包括列名指定列，返回指定列的记录数，在统计结果的时候，会忽略列值为NULL的记录（不包括空字符串和0），即列值为NULL的记录不统计在内。

（4）count(distinct 列名)---只包括列名指定列，返回指定列的不同值的记录数，在统计结果的时候，在统计结果的时候，会忽略列值为NULL的记录（不包括空字符串和0），即列值为NULL的记录不统计在内。

执行效率比较：

（1）如果列为主键，count(列名)效率优于count(1)

（2）如果列不为主键，count(1)效率优于count(列名)

（3）如果表中存在主键，count(主键列名)效率最优

（4）如果表中只有一列，则count(*)效率最优

（5）如果表有多列，且不存在主键，则count(1)效率优于count(*)

参考博客https://www.cnblogs.com/-flq/p/10302965.html
相关阅读:
化了妆的祝福 4
桥牌感悟 2
关于送礼
 东京disney sea流水账 1
东京disney sea流水账 3
晕倒的候任日本驻华大使
 一饮一啄
 就算神游之二：行路 4
关于送礼续
 桥牌感悟 3
原文地址：https://www.cnblogs.com/yangxusun9/p/12686007.html

Hive 查询语句的一些优化

group by 和 distinct 去重

区别

distinct：

distinct是将所有查询的字段进行对比去重，所有字段都完全相同才会去重

distinct 必须放在查询字段开头进行查询，这样就会导致如果后面还有字段，解析器会默认将它也划入去重的字段中，如 select distinct name,id from user，只有名字和id相同才会去重

group by：

group by 根据字段进行去重，字段相同就会去重

count （*） 、count（1）、count （column）

　　　　distinct 必须放在查询字段开头进行查询，这样就会导致如果后面还有字段，解析器会默认将它也划入去重的字段中，如 select distinct name,id from user，只有名字和id相同才会去重

count （*）、count（1）、count （column）