hive分桶

#创建分桶表
create table stu_buck(sno int,sname string,sex string,sage int,sdept string)
clustered by(sno)
sorted by(sno DESC)
into 4 buckets
row format delimited
fields terminated by ',';

#设置变量,设置分桶为true, 设置reduce数量是分桶的数量个数
set hive.enforce.bucketing = true;
set mapreduce.job.reduces=4;

#开会往创建的分通表插入数据(插入数据需要是已分桶, 且排序的)
#可以使用distribute by(sno) sort by(sno asc) 或是排序和分桶的字段相同的时候使用Cluster by(字段)
#注意使用cluster by 就等同于分桶+排序(sort)
insert into table stu_buck
select sno,sname,sex,sage,sdept from student distribute by(sno) sort by(sno asc);

相关阅读:
【Oracle/PLSQL】没事玩一个简单的表充值程序
findmnt命令查找已挂载的文件系统
如何让shell脚本变成可执行文件
在Linux中如何查看文件的修改日期
Dutree – Linux上的命令行磁盘使用情况分析工具
用FRP做内网穿透使用远程桌面连接家里的windows电脑
Dog-用于DNS查询的命令行工具
【DeFi】一文读懂预言机原理、类型、现状和发展方向
Vitalik Buterin 解读 Nathan Schneider 论文：加密经济治理的局限与改进思路
Vitalik：回顾区块链近 5 年经济学进展，以及新出现的问题

原文地址：https://www.cnblogs.com/shan13936/p/13765015.html