使用MapReduce来编写程序,有一个特定的流程,首先写map函数和reduce函数,最好使用单元测试来确保函数的运行符合预期。然后写一个驱动程序来运行作业,要看这个驱动程序是否可以运行,可以从本地IDE用一个晓得数据集来运行他,如果驱动程序不能正确运行,就用本地IDE调试器来找出问题根源。通过这些调试信息,可以加大单元测试使其覆盖这一测试用例,进而改进mapper或reducer。
程序运行后,你可能想进行一些优化调整,首先执行一些标准检查,借此加快MapReduce程序的运行,然后再做一些任务剖析(task profiling),分布式程序的分析并不简单,Hadoop提供了钩子(hook)来辅助分析过程。
配置API
Hadoop中,组件的配置是通过Hadoop提供的API来进行的。一个Configuration类的实例代表配置属性及其取值的一个集合。
(未完待续)