• Hadoop学习之路(十七)MapReduce框架Partitoner分区


    Partitioner分区类的作用是什么?

    在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需要把同一省份的数据放到一个文件中;按照性别划分的话,需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么,如果要得到多个文件,意味着有同样数量的Reducer任务在运行。Reducer任务的数据来自于Mapper任务,也就说Mapper任务要划分数据,对于不同的数据分配给不同的Reducer任务运行。Mapper任务划分数据的过程就称作Partition。负责实现划分数据的类称作Partitioner。

    Partitoner类的源码如下:

    package org.apache.hadoop.mapreduce.lib.partition;
    
    import org.apache.hadoop.mapreduce.Partitioner;
    
    /** Partition keys by their {@link Object#hashCode()}. */
    public class HashPartitioner<K, V> extends Partitioner<K, V> {
    
      /** Use {@link Object#hashCode()} to partition. */
      public int getPartition(K key, V value,
                              int numReduceTasks) {
        //默认使用key的hash值与上int的最大值,避免出现数据溢出 的情况
        return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
      }
    
    }

    getPartition()三个参数分别是什么?

      HashPartitioner是处理Mapper任务输出的,getPartition()方法有三个形参,源码中key、value分别指的是Mapper任务的输出,numReduceTasks指的是设置的Reducer任务数量,默认值是1。那么任何整数与1相除的余数肯定是0。也就是说getPartition(…)方法的返回值总是0。也就是Mapper任务的输出总是送给一个Reducer任务,最终只能输出到一个文件中。

      据此分析,如果想要最终输出到多个文件中,在Mapper任务中对数据应该划分到多个区中。那么,我们只需要按照一定的规则让getPartition(…)方法的返回值是0,1,2,3…即可。

      大部分情况下,我们都会使用默认的分区函数,但有时我们又有一些,特殊的需求,而需要定制Partition来完成我们的业务,

    案例如下:按照能否被5除尽去分区

    1、如果除以5的余数是0, 放在0号分区
    2、如果除以5的余数部是0, 放在1分区

    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.mapreduce.Partitioner;
    
    public class FivePartitioner extends Partitioner<IntWritable, IntWritable>{
    
        /**
         * 我们的需求:按照能否被5除尽去分区
         * 
         * 1、如果除以5的余数是0,  放在0号分区
         * 2、如果除以5的余数部是0,  放在1分区
         */
        @Override
        public int getPartition(IntWritable key, IntWritable value, int numPartitions) {
            
            int intValue = key.get();
            
            if(intValue % 5 == 0){
                return 0;
            }else{
                if(intValue % 2 == 0){
                    return 1;
                }else{
                    return 2;
                }
            }    
        }
    }

    在运行Mapreduce程序时,只需在主函数里加入如下两行代码即可:

    job.setPartitionerClass(FivePartitioner.class);
    job.setNumReduceTasks(3);//设置为3
  • 相关阅读:
    awk如何替换一个字符串的第n个字符?
    开启停止wifi热点bat脚本
    启停无线网卡bat脚本
    批量查找ip地址归属地脚本
    测试域名ping延迟脚本
    多线程FTP下载日志脚本
    社交网站好友储存设计和实现(PHP+MySQL)
    Python强化训练笔记(二)——元组元素的命名
    Python强化训练笔记(一)——在列表,字典,集合中筛选数据
    Android Studio安装配置
  • 原文地址:https://www.cnblogs.com/qingyunzong/p/8584379.html
Copyright © 2020-2023  润新知