• Hadoop 少量map/reduce任务执行慢问题


    最近在做报表统计,跑hadoop任务。

    之前也跑过map/reduce但是数据量不大,遇到某些map/reduce执行时间特别长的问题。

    执行时间长有几种可能性:

    1. 单个map/reduce任务处理的任务大。

        需要注意每个任务的数据处理量大小不至于偏差太大。可以切割部分大文件。

    2. map数量过多, reduce拉取各方数据慢

        这种情况,可以在中间加一轮map过程A。

        即map -> mapA - > reduce,来减少reduce拉取数据的源头的个数

    3. 遇到了执行慢节点

        hadoop 可以执行推测执行。对于某些耗时长的任务,如果集群有多余的slot可以启动额外的任务执行。

        如果对于同一个map(或者reduce),有任何一个相同map执行完成。则其他任务会被kill, 该map(或者reduce)执行完成。

        这种情况完全避免了,慢节点问题。

      推测执行参数: mapred.map.tasks.speculative.execution 和 mapred.reduce.tasks.speculative.execution 默认开启。

       

    map/reduce官方默认参数: https://hadoop.apache.org/docs/r1.0.4/mapred-default.html

  • 相关阅读:
    ycsb
    Tikv docker-compose go client
    Raft 协议
    kubectl 命令
    JAVA判断是否是微信内置浏览器,是否是在微信内打开
    IDEA设置默认maven配置
    JAVA中JDK1.8的LocalDateTime日期类的操作方法
    JAVA在JDK1.8中Stream流的使用
    Linux(Centos)部署Jenkins
    Linux(Centos)安装maven
  • 原文地址:https://www.cnblogs.com/xudong-bupt/p/8092831.html
Copyright © 2020-2023  润新知