MapReduce中的InputFormat

InputFormat在hadoop源码中是一个抽象类 public abstract class InputFormat<K, V>

https://github.com/apache/hadoop/blob/master/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-core/src/main/java/org/apache/hadoop/mapreduce/InputFormat.java

可以参考文章

https://cloud.tencent.com/developer/article/1043622

其中有两个抽象方法

  public abstract 
    List<InputSplit> getSplits(JobContext context
                               ) throws IOException, InterruptedException;

和

  public abstract 
    RecordReader<K,V> createRecordReader(InputSplit split,
                                         TaskAttemptContext context
                                        ) throws IOException, 
                                                 InterruptedException;

getSplits方法负责将输入的文件做一个逻辑上的切分，切分成一个List<InputSplit>，InputSplit的源码在

https://github.com/apache/hadoop/blob/master/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-core/src/main/java/org/apache/hadoop/mapreduce/InputSplit.java

在下文中提到 InputSplit是一个逻辑概念，并没有对实际文件进行切分，它只包含一些元数据信息，比如数据的起始位置，数据长度，数据所在的节点等

https://cloud.tencent.com/developer/article/1481777

相关阅读:
java工程师面试总结
多线程面试题
冒个泡
给大家简单介绍一下：Elasticsearch
单点登录
（jQuery）Cookie记住用户名和密码
我们需要循序渐进的代码重构
Java序列化(Serialization)的理解
Java对象序列化
【武】做一个有自控力的人，开始你的时间规划吧！

原文地址：https://www.cnblogs.com/tonglin0325/p/13750952.html