hive中几个排序方式的区别

hive中几个排序方式的区别

hive中Sort By，Order By，Cluster By，Distribute By，Group By的区别

order by：

　　 hive中的order by 和传统sql中的order by 一样，对数据做全局排序，加上排序，会新启动一个job进行排序，会把所有数据放到同一个reduce中进行处理，不管数据多少，不管文件多少，都启用一个reduce进行处理。如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit来限制输出条数，原因是：所有的数据都会在同一个reducer端进行，数据量大的情况下可能不能出结果，那么在这样的严格模式下，必须指定输出的条数。

sort by：

　　sort by 是局部排序，会在每个reduce端做排序，每个reduce端是排序的，也就是每个reduce出来的数据是有序的，但是全部不一定有序，除非一个reduce，一般情况下可以先进行局部排序完成后，再进行全局排序，会提高不少效率。

distribute by：

　　distribute by 是控制map端在reduce上是如何区分的，distribute by 会把指定的值发到同一个reduce中，比如用上面数据distribute by id 它就会把id相同的值放到一个reduce中执行，不是一个值一个reduce，而是相同的值进入到一个reduce，例如用上面数据可以进入到2个reduce，一般情况下可以sort by 结合使用，先进行分组reduce，再进行排序（相当于mapreduce中的分区函数）。
PS：

Order by 能够预期产生完全排序的结果，但是它是通过只用一个reduce来做到这点的。所以对于大规模的数据集它的效率非常低。在很多情况下，并不需要全局排序，此时可以换成Hive的非标准扩展sort by。Sort by为每个reducer产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。Hive的distribute by 子句可以做这件事

cluster by（只能是使用默认的升序排序，不能使用ACS和DESC）：

　　这个其实就是distribute by 和sort by 结合使用的结果（前提是同一个字段）。
　　例如：select id,money,name from t cluster by id;

　　等价于：select id,money,name from t distribute by id sort by id

distribute by和group by的区别：

　　都是按key值划分数据都使用reduce操作 **唯一不同的是，distribute by只是单纯的分散数据，distribute by col – 按照col列把数据分散到不同的reduce。而group by把相同key的数据聚集到一起，后续必须是聚合操作。

order by和sort by的区别：

　　order by是全局排序 sort by只是确保每个reduce上面输出的数据有序。如果只有一个reduce时，和order by作用一样。
相关阅读:
FlinkCDC读取MySQL并写入Kafka案例(com.ververica)
frp将内网网站映射到外网记录
 Flink大厂应用视频
 学习清单(视频)
记录某个花了我三四天时间才解决的一个因为手残导致的问题
 redis简单测试
 关于async与await的一点测试
 Go 字符串切割技巧
 NewReplacer使用技巧
 Veeam Backup & Replication 10.0.0.4461安装部署（包含补丁）
原文地址：https://www.cnblogs.com/wcgstudy/p/11434484.html

hive中几个排序方式的区别

hive中Sort By，Order By，Cluster By，Distribute By，Group By的区别