• Mapreduce实例——MapReduce自定义输入格式


    目的

    1.了解Hadoop自带的几种输入格式

    2.准确理解MapReduce自定义输入格式的设计原理

    3.熟练掌握MapReduce自定义输入格式程序代码编写

    4.培养自己编写MapReduce自定义输入格式程序代码解决实际问题

    原理

    1.输入格式:InputFormat类定义了如何分割和读取输入文件,它提供有下面的几个功能:

    1)选择作为输入的文件或对象;

    2定义把文件划分到任务的InputSplits

    3)为RecordReader读取文件提供了一个工厂方法;

    Hadoop自带了好几个输入格式。其中有一个抽象类叫FileInputFormat,所有操作文件的InputFormat类都是从它那里继承功能和属性。当开启Hadoop作业时,FileInputFormat会得到一个路径参数,这个路径内包含了所需要处理的文件,FileInputFormat会读取这个文件夹内的所有文件(译注:默认不包括子文件夹内的),然后它会把这些文件拆分成一个或多个的InputSplit。你可以通过JobConf对象的setInputFormat()方法来设定应用到你的作业输入文件上的输入格式。下表给出了一些

    默认的输入格式是TextInputFormat,它把输入文件每一行作为单独的一个记录,但不做解析处理。这对那些没有被格式化的数据或是基于行的记录来说是很有用的,比如日志文件。更有趣的一个输入格式是KeyValueInputFormat,这个格式也是把输入文件每一行作为单独的一个记录。然而不同的是TextInputFormat把整个文件行当做值数据,KeyValueInputFormat则是通过搜寻tab字符来把行拆分为键值对。这在把一个MapReduce的作业输出作为下一个作业的输入时显得特别有用,因为默认输出格式(下面有更详细的描述)正是按KeyValueInputFormat格式输出数据。最后来讲讲SequenceFileInputFormat,它会读取特殊的特定于Hadoop的二进制文件,这些文件包含了很多能让Hadoopmapper快速读取数据的特性。Sequence文件是块压缩的并提供了对几种数据类型(不仅仅是文本类型)直接的序列化与反序列化操作。Squence文件可以作为MapReduce任务的输出数据,并且用它做一个MapReduce作业到另一个作业的中间数据是很高效的。

    输入块(InputSplit):一个输入块描述了构成MapReduce程序中单个map任务的一个单元。把一个MapReduce程序应用到一个数据集上,即是指一个作业,会由几个(也可能几百个)任务组成。Map任务可能会读取整个文件,但一般是读取文件的一部分。默认情况下,FileInputFormat及其子类会以64MB(与HDFSBlock默认大小相同,译注:Hadoop建议Split大小与此相同)为基数来拆分文件。你可以在hadoop-site.xml(译注:0.20.*以后是在mapred-default.xml里)文件内设定mapred.min.split.size参数来控制具体划分大小,或者在具体MapReduce作业的JobConf对象中重写这个参数。通过以块形式处理文件,我们可以让多个map任务并行的操作一个文件。如果文件非常大的话,这个特性可以通过并行处理大幅的提升性能。更重要的是,因为多个块(Block)组成的文件可能会分散在集群内的好几个节点上(译注:事实上就是这样),这样就可以把任务调度在不同的节点上;因此所有的单个块都是本地处理的,而不是把数据从一个节点传输到另外一个节点。当然,日志文件可以以明智的块处理方式进行处理,但是有些文件格式不支持块处理方式。针对这种情况,你可以写一个自定义的InputFormat,这样你就可以控制你文件是如何被拆分(或不拆分)成文件块的。

    输入格式定义了组成mapping阶段的map任务列表,每一个任务对应一个输入块。接着根据输入文件块所在的物理地址,这些任务会被分派到对应的系统节点上,可能会有多个map任务被分派到同一个节点上。任务分派好后,节点开始运行任务,尝试去最大并行化执行。节点上的最大任务并行数由mapred.tasktracker.map.tasks.maximum参数控制。

    记录读取器(RecordReader):InputSplit定义了如何切分工作,但是没有描述如何去访问它。 RecordReader类则是实际的用来加载数据并把数据转换为适合mapper读取的键值对。RecordReader实例是由输入格式定义的,默认的输入格式,TextInputFormat,提供了一个LineRecordReader,这个类的会把输入文件的每一行作为一个新的值,关联到每一行的键则是该行在文件中的字节偏移量。RecordReader会在输入块上被重复的调用直到整个输入块被处理完毕,每一次调用RecordReader都会调用Mappermap()方法。

    2.当面对一些特殊的<key,value>键值对时,如key是由一个文件名和记录位置组成的键值时,这时hadoop本身提供的TextInputFormatCombineInputFormatNLineInputFormat等肯定是无法满足我们的需求的,所以这里需要重写自己的输入分隔。MapReduce定义了接口InputFormat,它提供了两个方法,getSplits()createRecordRead(),其中getSplits()负责对输入文件进行切割,切割之后便是一个个split,比如hadoop默认提供的几个InputFormat都是对大于BlockSize的文件进行切割,小于它的不切割,我们这里可以直接按照这种特性。而createRecordRead()则负责将一个split按照一定格式切割成一个个<K,V>对,以便MapReducemap时调用。所以,我们的关键就是去定义这个<K,V>的切割。就要求开发人员继承FileInputFormat,用于实现一种新的输入格式,同时还需要继承RecordReader,用于实现基于新输入格式KeyValue值的读取方法。

    FileInputFormat实现了InputFormat这个接口,实现了只对大于BlockSize的文件进行切割,并且保留了createRecordRead()这个方法让我们自己去实现。所以我们可以写一个类FileKeyInputFormatextends这个FileInputFormat类,然后Override这个createRecordRead()方法。

    参考TextInputFormat发现,它也是继承FileInputFormat,然后重写了createRecordRead(),在createRecordRead()里面callLineRecordReader,由它来实现输入分隔。好吧,重点就来到了,那就是自己写一个类似于LineRecordReaderFileKeyRecordReader类,然后给我们的FileKeyInputForma来调用。LineRecordReader 继承 RecordReader时,重写了它的六个方法,分别是initialize()getCurrentKey()getCurrentValue()getProgress()Close()nextKeyValue(),这里也一样需要重写这几个方法。

    环境

    Linux Ubuntu 14.04

    jdk-7u75-linux-x64

    hadoop-2.6.0-cdh5.4.5

    hadoop-2.6.0-eclipse-cdh5.4.5.jar

    eclipse-java-juno-SR2-linux-gtk-x86_64

    内容

    当面对一些特殊的<key,value>键值对时,要求开发人员继承FileInputFormat,用于实现一种新的输入格式,同时还需要继承RecordReader,用于实现基于新输入格式KeyValue值的读取方法。假定key是由一个文件名和记录位置组成的键值时,进行自定义输入格式,需实现一个FileKeyInputFormat类和一个FileKeyRecordReader类。并通过cat1文件数据进行测验。

    cat1包含(cat_idcat_name)四个字段,内容以" "分割,数据内容如下:

    cat1文件

    1. 52001   有机蔬果    601  
    2. 52002   有机肉类水产  602  
    3. 52003   有机粮油干货  603  
    4. 52004   有机冲饮    604  
    5. 52005   其它  605  

    结果数据

    1. (cat1@0)        :52001  有机蔬果    601  
    2. (cat1@104)  :52005  其它  605  
    3. (cat1@23)   :52002  有机肉类水产  602  
    4. (cat1@52)   :52003  有机粮油干货  603  
    5. (cat1@81)   :52004  有机冲饮    604  

    实验步骤

    1.切换到/apps/hadoop/sbin目录下,开启Hadoop

    1. cd /apps/hadoop/sbin  
    2. ./start-all.sh  

    2.Linux本地新建/data/mapreduce11目录。

    1. mkdir -p /data/mapreduce11  

    3.Linux中切换到/data/mapreduc11目录下,用wget命令从http://192.168.1.100:60000/allfiles/mapreduce11/cat1网址上下载文本文件cat1

    1. cd /data/mapreduce11  
    2. wget http://192.168.1.100:60000/allfiles/mapreduce11/cat1  

    然后在当前目录下用wget命令从http://192.168.1.100:60000/allfiles/mapreduce11/hadoop2lib.tar.gz网址上下载项目用到的依赖包。

    1. wget http://192.168.1.100:60000/allfiles/mapreduce11/hadoop2lib.tar.gz  

    hadoop2lib.tar.gz解压到当前目录下。

    1. tar zxvf hadoop2lib.tar.gz  

    4.首先在HDFS上新建/mymapreduce11/in目录,然后将Linux本地/data/mapreduce11目录下的cat1文件导入到HDFS/mymapreduce11/in目录中。

    1. hadoop fs -mkdir -p /mymapreduce11/in  
    2. hadoop fs -put /data/mapreduce11/cat1 /mymapreduce11/in  

    5.新建Java Project项目,项目名为mapreduce11

    mapreduce11的项目下新建package包,包名为mapreduce

    mapredcue包下新建FileKeyInputFormat类。

    mapredcue包下新建FileKeyRecordReader类。

    mapredcue包下新建FileKeyMR类。

    6.添加项目所需依赖的jar包,右键单击项目名,新建一个文件夹hadoop2lib,用于存放项目所需的jar包。

    /data/mapreduce11目录下,hadoop2lib目录中的jar包,拷贝到eclipsemapreduce11项目的hadoop2lib目录下。

    选中所有项目hadoop2lib目录下所有jar包,并添加到Build Path中。

    7.编写程序代码,并描述其设计思路。

    FileKeyInputFormat类代码:

    1. package mapreduce;  
    2. import java.io.IOException;  
    3. import java.util.List;  
    4. import org.apache.hadoop.fs.FileStatus;  
    5. import org.apache.hadoop.fs.Path;  
    6. import org.apache.hadoop.io.Text;  
    7. import org.apache.hadoop.mapreduce.InputSplit;  
    8. import org.apache.hadoop.mapreduce.JobContext;  
    9. import org.apache.hadoop.mapreduce.RecordReader;  
    10. import org.apache.hadoop.mapreduce.TaskAttemptContext;  
    11. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
    12. public class FileKeyInputFormat extends FileInputFormat<Text,Text>{  
    13.     public FileKeyInputFormat(){}  
    14.     public RecordReader<Text,Text> createRecordReader(InputSplit split,TaskAttemptContext tac)  
    15.         throws IOException,InterruptedException{  
    16.         FileKeyRecordReader fkrr=new FileKeyRecordReader();  
    17.          try {  
    18.             fkrr.initialize(split,tac);  
    19.         } catch (Exception e) {  
    20.             e.printStackTrace();  
    21.         }  
    22.         return fkrr;  
    23.     }  
    24.     protected long computeSplitSize(long blockSize,long minSize,long maxSize){  
    25.         return super.computeSplitSize(blockSize,minSize,maxSize);  
    26.     }  
    27.     public List<InputSplit> getSplits(JobContext arg0)throws IOException{  
    28.     return super.getSplits(arg0);  
    29.     }  
    30.     protected boolean isSplitable(JobContext context,Path filename){  
    31.     return true;  
    32.     }  
    33.     protected List<FileStatus> listStatus(JobContext arg0)throws IOException{  
    34.         return super.listStatus(arg0);  
    35.         }  
    36.         }  

    MapReduce定义了接口InputFormat,它提供了两个方法,getSplits()createRecordRead(),其中getSplits()负责对输入文件进行切割,切割之后便是一个个split,比如hadoop默认提供的几个InputFormat都是对大于BlockSize的文件进行切割,小于它的不切割,我们这里可以直接按照这种特性。而createRecordRead()则负责将一个split按照一定格式切割成一个个<K,V>对,以便MapReducemap时调用。所以,我们的关键就是去定义这个<K,V>的切割。就要求开发人员继承FileInputFormat,用于实现一种新的输入格式,同时还需要继承RecordReader,用于实现基于新输入格式KeyValue值的读取方法。

    FileKeyRecordReader类代码:

    1. package mapreduce;  
    2. import java.io.IOException;  
    3. import java.io.InterruptedIOException;  
    4. import org.apache.hadoop.io.LongWritable;  
    5. import org.apache.hadoop.io.Text;  
    6. import org.apache.hadoop.mapreduce.InputSplit;  
    7. import org.apache.hadoop.mapreduce.RecordReader;  
    8. import org.apache.hadoop.mapreduce.TaskAttemptContext;  
    9. import org.apache.hadoop.mapreduce.lib.input.FileSplit;  
    10. import org.apache.hadoop.mapreduce.lib.input.LineRecordReader;  
    11. public class FileKeyRecordReader extends RecordReader<Text,Text> {  
    12.     public FileKeyRecordReader(){  
    13.     }  
    14.         String fn;  
    15.         LineRecordReader lrr=new LineRecordReader();  
    16.         public void initialize(InputSplit arg0,TaskAttemptContext arg1)  
    17.             throws IOException,InterruptedException{  
    18.             lrr.initialize(arg0, arg1);  
    19.             this.fn=((FileSplit)arg0).getPath().getName();  
    20.         }  
    21.         public void close()throws IOException{  
    22.             lrr.close();  
    23.         }  
    24.         public Text getCurrentKey()throws IOException,InterruptedException{  
    25.             System.out.println("CurrentKey");  
    26.             LongWritable lw=lrr.getCurrentKey();  
    27.             Text key =new Text("("+fn+"@"+lw+")");  
    28.             System.out.println("key--"+key);  
    29.             return key;  
    30.         }  
    31.         public Text getCurrentValue()throws IOException,InterruptedException{  
    32.             return lrr.getCurrentValue();  
    33.         }  
    34.         public float getProgress()throws IOException,InterruptedException{  
    35.             return 0;  
    36.         }  
    37.         public boolean nextKeyValue() throws IOException,InterruptedIOException{  
    38.             return lrr.nextKeyValue();  
    39.         }  
    40. }  

    继承RecordReader抽象类,并重写initialize()getCurrentKey()getCurrentValue() getProgress() nextKeyValue()initialize()方法。

    测试代码:

    1. package mapreduce;  
    2. import java.io.IOException;  
    3. import java.util.Iterator;  
    4. import org.apache.hadoop.conf.Configuration;  
    5. import org.apache.hadoop.fs.Path;  
    6. import org.apache.hadoop.io.Text;  
    7. import org.apache.hadoop.mapreduce.Job;  
    8. import org.apache.hadoop.mapreduce.Mapper;  
    9. import org.apache.hadoop.mapreduce.Reducer;  
    10. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
    11. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
    12. import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;  
    13. public class FileKeyMR{  
    14.     public static class Map extends Mapper<Object,Text,Text,Text>{  
    15.         public void map(Text key,Text value,Context context) throws IOException, InterruptedException{  
    16.             String line=value.toString();  
    17.             System.out.println(line);  
    18.             String str[]=line.split(" ");  
    19.             for(String st:str){  
    20.                 context.write(key,new Text(st));  
    21.             }  
    22.             System.out.println(line);  
    23.         }  
    24.     }  
    25.     public static class Reduce extends Reducer<Text,Text,Text,Text>{  
    26.         public void reduce(Text key,Iterable<Text> values,Context context) throws IOException, InterruptedException{  
    27.     String s=":";  
    28.     for(Text val:values){  
    29.     s+=val;  
    30.     }  
    31.     context.write(key,new Text(s));  
    32.     }  
    33.     }  
    34.     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException{  
    35.     Configuration conf=new Configuration();  
    36.     Job job=new Job(conf,"FileKeyMR");  
    37.     job.setJarByClass(FileKeyMR.class);  
    38.     job.setMapperClass(Map.class);  
    39.     job.setReducerClass(Reduce.class);  
    40.     job.setInputFormatClass(FileKeyInputFormat.class);  
    41.     job.setOutputKeyClass(Text.class);  
    42.     job.setOutputValueClass(Text.class);  
    43.     FileInputFormat.addInputPath(job, new Path("hdfs://localhost:9000/mymapreduce11/in/cat1"));  
    44.     FileOutputFormat.setOutputPath(job, new Path("hdfs://localhost:9000/mymapreduce11/out"));  
    45.     System.exit(job.waitForCompletion(true)?0:1);  
    46.     }  
    47.     }  

    Map部分:把map函数输入的key直接复制给输出的key,输入的value通过split()方法以" "键解切,将解切的字段放到一个数组中,用增强版for循环遍历数组,并将里面的元素赋值给输出value,把<key,value>逐一进行输出。Reduce部分:map函数输出的<key,value>键值对先经过shuffle,把key相同的所有value值放到一个迭代器中形成values,然后把<key,values>键值对传递给reduce函数,reduce函数接收了<key,values>之后,先定义String s=":",然后将输入的key直接复制给输出的key,将输入valuesfor循环遍历加到s中,最后把s赋值给输出的value,并直接输出<key,value>。在主函数里job.setInputFormatClass(FileKeyInputFormat.class)

    8.FileKeyMR类文件中,右键并点击=>Run As=>Run on Hadoop选项,将MapReduce任务提交到Hadoop中。

    9.待执行完毕后,进入命令模式,在HDFS/mymapreduce11/out中查看实验结果。

    1. hadoop fs -ls /mymapreduce11/out  
    2. hadoop fs -cat /mymapreduce11/out/part-r-00000  

  • 相关阅读:
    DHTML 动态效果100例
    Apache 发布网站
    Django笔记 3
    JDBC
    Android国行手机使用Google Play Store
    Cloud9 使用 GitHub
    maven
    linux 下查看系统信息的一些命令
    C++成员变量指针和成员函数指针
    SIP 协议
  • 原文地址:https://www.cnblogs.com/aishanyishi/p/10304872.html
Copyright © 2020-2023  润新知