1、分片大小的确定
2、最佳分片大小应该与块大小相同
3、map任务的输出一般卸载本地硬盘,而reduce任务的输出写在hdfs中实现可靠存储;(当没有reduce过程时,map输出写在hdfs中)
4、若多个reduce任务,则每个map任务都会输出多个分区(为每个reduce建立一个分区)
5、三种map、reduce形式:
6、为减少map与reduce之间的数据传输(带宽很重要),可以设计combine函数
1、分片大小的确定
2、最佳分片大小应该与块大小相同
3、map任务的输出一般卸载本地硬盘,而reduce任务的输出写在hdfs中实现可靠存储;(当没有reduce过程时,map输出写在hdfs中)
4、若多个reduce任务,则每个map任务都会输出多个分区(为每个reduce建立一个分区)
5、三种map、reduce形式:
6、为减少map与reduce之间的数据传输(带宽很重要),可以设计combine函数