• hive优化,控制map、reduce数量


    一、调整hive作业中的map数

    1.通常情况下,作业会通过input的目录产生一个或者多个map任务。
    主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);

    2.举例:

    a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数
    b)假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(10m,20m,128m,2m),从而产生4个map数,即,如果文件大于块大小(128m),那么会拆分,如果小于块大小,则把该文件当成一个块。

    3.是不是map数越多越好?
    答案是否定的。如果一个任务有很多小文件(远远小于块大小128m),则每个小文件也会被当做一个块,用一个map任务来完成,而一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的map数是受限的。

    4.是不是保证每个map处理接近128m的文件块,就高枕无忧了?
    答案也是不一定。比如有一个127m的文件,正常会用一个map去完成,但这个文件只有一个或者两个小字段,却有几千万的记录,如果map处理的逻辑比较复杂,用一个map任务去做,肯定也比较耗时我通过以下方法来在map执行前合并小文件,减少map数:

    set mapred.max.split.size=100000000;
    set mapred.min.split.size.per.node=100000000;
    set mapred.min.split.size.per.rack=100000000;
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

    增加map数方法:

    1、可以合理调整以下参数可以达到增加map数目的:

    set mapred.max.split.size=100000000;
    set mapred.min.split.size.per.node=100000000;
    set mapred.min.split.size.per.rack=100000000;
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

    2、重建目标表将物理分区切分成多份,如下:

    create table emp002 as select * from emp distribute by rand(10);

    二、调整hive作业中的reduce任务个数

    1、调整reduce任务个数方法一:

    设置参数:

    set hive.exec.reducers.bytes.per.reducer=1000000000;

    set hive.exec.reducers.max=999;

    2、设置reduce任务个数方法二:

    调整参数:

    set mapred.reduce.tasks=10;

    三、hive合并输入输出文件

    如果Hive的输入文件是大量的小文件,而每个文件启动一个map的话是对yarn资源的浪费,同样的,hive输出的文件也远远小于HDFS块大小,对后续处理也是不利的。

    HIVE中支持通过参数调整输入和输出的文件大小

    1、合并输入文件

    set mapred.max.split.size=256000000;  #每个Map最大输入大小
    set mapred.min.split.size.per.node=100000000; #一个节点上split的至少的大小
    set mapred.min.split.size.per.rack=100000000; #一个交换机下split的至少的大小
    set hive.input.format=org.apache.Hadoop.hive.ql.io.CombineHiveInputFormat;  #执行Map前进行小文件合并

    开启org.apache.hadoop.hive.ql.io.CombineHiveInputFormat后,一个data node节点上多个小文件会进行合并,合并文件数由mapred.max.split.size限制的大小决定,mapred.min.split.size.per.node决定了多个data node上的文件是否需要合并,mapred.min.split.size.per.rack决定了多个交换机上的文件是否需要合并。

    2、合并输出文件

    set hive.merge.mapfiles = true #在Map-only的任务结束时合并小文件
    set hive.merge.mapredfiles = true #在Map-Reduce的任务结束时合并小文件
    set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小
    set hive.merge.smallfiles.avgsize=16000000 #当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge。

    以上参数在hive-0.13.1中默认值如下:

    hive (default)> set hive.merge.mapfiles;

    hive.merge.mapfiles=true

    hive (default)> set hive.merge.mapredfiles;

    hive.merge.mapredfiles=false

    hive (default)> set hive.merge.size.per.task;

    hive.merge.size.per.task=256000000

    hive (default)> set hive.merge.smallfiles.avgsize;

    hive.merge.smallfiles.avgsize=16000000

    综上所述:一个可能的hive 作业可以设置为以下格式:

    set mapred.max.split.size=100000000;
    set mapred.min.split.size.per.node=100000000;
    set mapred.min.split.size.per.rack=100000000;
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

    set hive.exec.reducers.bytes.per.reducer=1000000000;

    set hive.exec.reducers.max=256;

    set hive.merge.mapfiles=true;

    set hive.merge.mapredfiles =ture;

    set hive.merge.size.per.task=256000000;

    set hive.merge.smallfiles.avgsize=16000000;

    select deptno,count(1) from emp group by deptno;

    或者

    set mapred.max.split.size=100000000;
    set mapred.min.split.size.per.node=100000000;
    set mapred.min.split.size.per.rack=100000000;
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

    set mapred.reduce.tasks=10;

    set hive.merge.mapfiles=true;

    set hive.merge.mapredfiles =ture;

    set hive.merge.size.per.task=256000000;

    set hive.merge.smallfiles.avgsize=16000000;

    select deptno,count(1) from emp group by deptno;

  • 相关阅读:
    Python爬虫利器一之Requests库的用法
    python——时间与时间戳之间的转换
    pyDes库 实现python的des加密
    python 统计发送请求到接收response的时间
    Jenkins进阶系列之——02email-ext邮件通知模板
    Jenkins进阶系列之——01使用email-ext替换Jenkins的默认邮件通知
    Jenkins+Ant+Jmeter搭建持续集成的接口测试平台
    Java连接MySQL数据库——含步骤和代码
    CentOS 7.1 中文正式版下载
    Python数据结构之实现队列
  • 原文地址:https://www.cnblogs.com/kwzblog/p/9542333.html
Copyright © 2020-2023  润新知