hadoop拾遗（三）---- 多种输入

　　虽然一个MapReduce作业的输入可能包含多个输入文件（由文件glob、过滤器和路径组成），但所有文件都由同一个InputFormat和同一个Mapper来解释。然而，数据格式往往会随时间而演变，所以必须写自己的mapper来处理应用中的遗留数据格式。或，有些数据源会提供相同的数据，但是格式不同。对不同的数据集进行连接（jion,也称“联接”）操作时，便会产生这样的问题。例如，有些数据可能是作用制表符分隔的文本文件，另一些文件可能是二进制的顺序文件。即使它们格式相同，它们的表示也可能不同，因此需要分别进行解析。

　　这些问题可以用 MultipleInputs 类来妥善处理，它允许为每条输入路径指定InputFormat 和 Mapper。

　　例：

MultipleInputs.addInputPath(job, path, inputFormatClass); //新版本   为每个输入指定对应格式
		MultipleInputs.addInputPath(job, path, inputFormatClass, mapperClass);// 新版本 添加输入文件路径，格式，和其对应的处理map类。
org.apache.hadoop.mapred.lib.MultipleInputs.addInputPath(conf, path, inputFormatClass); //老版本
org.apache.hadoop.mapred.lib.MultipleInputs.addInputPath(conf, path, inputFormatClass, mapperClass);//老版本

相关阅读:
刘备和诸葛亮闹翻：无意说出蜀国灭亡的根源？
亚马逊为什么能吞噬世界？贝索斯有这么一种独特的战略思维
现在的社会，能负债的人，一定是有本事的人
富士康为何转向美国：人口红利消失炒房带来恶性循环
中国华为：硅谷风混搭国企作派
亚马逊拟斥资15亿美元建航空货运中心
比数字工具更好用的纸和笔
张小龙的克制小程序微信
阿里前CEO卫哲用自己10余年经历，倾诉B2B的三差、四率、两大坑
关于自信的励志名言

原文地址：https://www.cnblogs.com/nocml/p/3322189.html