• Hive 查询语句的一些优化


    声明:本文内容中的效率对比都是参照大佬博客写的,我只是一个搬运工。。。

    group  by  和  distinct 去重

    区别

    俩者都有去重的作用,用法上当然也有区别:

    distinct:

    distinct是将所有查询的字段进行对比去重,所有字段都完全相同才会去重

        distinct 必须放在查询字段开头进行查询,这样就会导致如果后面还有字段,解析器会默认将它也划入去重的字段中,如 select distinct name,id from user,只有名字和id相同才会去重

    所以在实际应用中,我们经常结合count ()来返回不重复数据的条数————count(distinct id)

    group by:

    group by 根据字段进行去重,字段相同就会去重

    如果想进行统计行数的操作,还得再嵌套一个表

    就效率而言,

    不管是加不加索引 group by 都比 distinct 快。因此使用的时候建议选 group by

    参考链接:

    https://www.cnblogs.com/zox2011/archive/2012/09/12/2681797.html

    https://blog.csdn.net/dm_source/article/details/80246586

    count (*) 、count(1)、count (column)

    首先讲一下用法:

    (1)count(*)---包括所有列,返回表中的记录数,相当于统计表的行数,在统计结果的时候,不会忽略列值为NULL的记录。

    (2)count(1)---忽略所有列,1表示一个固定值,也可以用count(2)、count(3)代替,在统计结果的时候,不会忽略列值为NULL的记录。与count(*)作用相同

    (3)count(列名)---只包括列名指定列,返回指定列的记录数,在统计结果的时候,会忽略列值为NULL的记录(不包括空字符串和0),即列值为NULL的记录不统计在内。

    (4)count(distinct 列名)---只包括列名指定列,返回指定列的不同值的记录数,在统计结果的时候,在统计结果的时候,会忽略列值为NULL的记录(不包括空字符串和0),即列值为NULL的记录不统计在内。

    执行效率比较:

    (1)如果列为主键,count(列名)效率优于count(1)

    (2)如果列不为主键,count(1)效率优于count(列名)

    (3)如果表中存在主键,count(主键列名)效率最优

    (4)如果表中只有一列,则count(*)效率最优

    (5)如果表有多列,且不存在主键,则count(1)效率优于count(*)

    参考博客https://www.cnblogs.com/-flq/p/10302965.html

  • 相关阅读:
    化了妆的祝福 4
    桥牌感悟 2
    关于送礼
    东京disney sea流水账 1
    东京disney sea流水账 3
    晕倒的候任日本驻华大使
    一饮一啄
    就算神游 之二:行路 4
    关于送礼续
    桥牌感悟 3
  • 原文地址:https://www.cnblogs.com/yangxusun9/p/12686007.html
Copyright © 2020-2023  润新知