• hive中的桶


    hive中有桶的概念,对于每一个表或者分区,可以进一步组织成桶,说白点,就是更细粒度的数据范围。
    hive采用列值哈希,然后除以桶的个数以求余的方式决定该条记录存放在哪个桶当中。
    使用桶的好处:
    1、获得更高的查询处理效率。桶为表加上了额外的结构,Hive在处理有些查询时能利用这个结构。具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用 Map 端连接 (Map-side join)高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量。
    2、使取样(sampling)更高效。在处理大规模数据集时,在开发和修改查询的阶段,如果能在数据集的一小部分数据上试运行查询,会带来很多方便。

    需要特别注意的是:clustered by和sorted by不会影响数据的导入,这意味着,用户必须自己负责数据如何如何导入,包括数据的分桶和排序。
    可以使用'set hive.enforce.bucketing = true'

    可以自动控制上一轮reduce的数量从而适配bucket的个数,

    看个例子

    原始数据

    1	15	xiaohong
    2	16	xiaoming
    3	17	xiaohuang
    3	18	xiaocui
    4	19	xiaoma
    5	21	xiaocai
    6	22	xiaojie
    7	25	xiaoliu
    8	28	xaoqi
    

    先创建一张普通表,再创建一张桶的表。

    create table student(id INT, age INT, name STRING)
    partitioned by(p_date STRING) 
    row format delimited fields terminated by '	';
    
    create table  bucketed_student(id INT, age INT, name STRING)
    partitioned by(stat_date STRING) 
    clustered by(id) sorted by(age) into 2 bucket
    row format delimited fields terminated by '	';

    load数据到普通表,因为直接load到分桶的表是不会分桶,需要insert进行才会根据根据分桶要求进行分桶。

    LOAD DATA LOCAL INPATH '/home//aaa' OVERWRITE INTO table bucketed_student partition(p_date='2016');
     
    set hive.enforce.bucketing = true;
    insert overwrite table bucketed_student partition(p_date='2016') select id,age,name from student where p_date=2016

    查看两表的目录,发现分桶会生成两份数据文件

    hadoop fs -ls /data/hive/warehouse/temp.db/bucketed_student/p_date=2016
    Found 2 items
    -rwxr-xr-x   3 webopa hive         50 2016-11-23 13:53 /data/hive/warehouse/temp.db/bucketed_student/p_date=2016/000000_0
    -rwxr-xr-x   3 webopa hive         68 2016-11-23 13:53 /data/hive/warehouse/temp.db/bucketed_student/p_date=2016/000001_0

    普通表是一份

    hadoop fs -ls /data/hive/warehouse/temp.db/student/p_date=2016
    Found 1 items
    -rwxrwxrwx   3 webopa hive        117 2016-11-23 11:41 /data/hive/warehouse/temp.db/student/p_date=2016/aaa

    查看下分通表每个文件中的数据。偶数一个文件,基数一个文件。

    hadoop fs -cat /data/hive/warehouse/temp.db/bucketed_student/p_date=2016/000000_0
    8	28	xaoqi
    6	22	xiaojie
    4	19	xiaoma
    2	16	xiaoming
    hadoop fs -cat /data/hive/warehouse/temp.db/bucketed_student/p_date=2016/000001_0
    7	25	xiaoliu
    5	21	xiaocai
    3	18	xiaocui
    3	17	xiaohuang
    1	15	xiaohong

     查看sampling数据:

    select * from bucketed_student  tablesample(bucket 1 out of 2 on id); 
    8	28	xaoqi	2016
    6	22	xiaojie	2016
    4	19	xiaoma	2016
    2	16	xiaoming	2016
    

    tablesample是抽样语句,语法:TABLESAMPLE(BUCKET x OUT OF y)
    y必须是table总bucket数的倍数或者因子。hive根据y的大小,决定抽样的比例。例如,table总共分了64份,当y=32时,抽取 (64/32=)2个bucket的数据,当y=128时,抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。例 如,table总bucket数为32,tablesample(bucket 3 out of  16),表示总共抽取(32/16=)2个bucket的数据,分别为第3个bucket和第(3+16=)19个bucket的数据

  • 相关阅读:
    Make something people want
    POJ 3662 Telephone Lines (二分+Dijkstra)
    POJ 2010 Moo University
    HDU 6627 2017ACM/ICPC亚洲区域赛沈阳站 Rabbits
    HDU 6625 2017ACM/ICPC亚洲区域赛沈阳站 Little Boxes(高精度整数加法)
    Codeforces 877D Olya and Energy Drinks(BFS+剪枝)
    CodeForces 876B Divisiblity of Differences (数学水题)
    POJ 2139 Six Degrees of Cowvin Bacon (Floyd最短路)
    UESTC 1057 秋实大哥与花 (线段树)
    Linux安装Oh-my-zsh
  • 原文地址:https://www.cnblogs.com/wujin/p/6093401.html
Copyright © 2020-2023  润新知