http://www.kuqin.com/system-analysis/20111221/316517.html hadoop的分布式管理工具
http://www.tbdata.org/archives/1470 淘宝关于hadoop的性能调优
当job指定了combiner的时候,我们都知道map介绍后会在map端根据combiner定义的函数将map结果进行合并。运行combiner函数的时机有可能会是merge完成之前,或者之后,这个时机可以由一个参数控制,即min.num.spill.for.combine(default 3),当job中设定了combiner,并且spill数最少有3个的时候,那么combiner函数就会在merge产生结果文件之前运行。通过这样 的方式,就可以在spill非常多需要merge,并且很多数据需要做conbine的时候,减少写入到磁盘文件的数据数量,同样是为了减少对磁盘的读写 频率,有可能达到优化作业的目的。
并不能保证所有的map输出结果都走一遍combiner 。
http://blog.csdn.net/xhh198781/article/details/7187731 对于DataBlockScanner的源代码