MR与spark的区别

1.本质上相同，都是把Map端数据分类处理后交由Reduce的过程

2.数据流有所区别，MR按map, spill, merge, shuffle, sort, reduce等各阶段逐一实现。Spark基于DAG数据流，可实现更复杂数据流操作（根据宽/窄依赖实现）

3.实现功能上有所区别，MR在map中做了排序操作，而Spark假定大多数应用场景Shuffle数据的排序操作不是必须的，而是采用Aggregator机制（Hashmap每个元素<K,V>形式）实现。（下面有较详细说明）

4.Shuffle是连接Map和Reduce之间的桥梁，Map的输出结果需要经过Shuffle过程之后，也就是经过数据分类以后再交给Reduce进行处理。因此，Shuffle的性能高低直接影响了整个程序的性能和吞吐量。由此可知，Shuffle是指对Map输出结果进行分区、排序、合并等处理并交给Reduce的过程。

5.Map端Shuffle过程，就是对Map输出结果写入缓存、分区、排序、合并再写入磁盘。
Reduce端Shuffle过程，就是从不同Map机器取回输出进行归并后交给Reduce进行处理。

相关阅读:
几个华为5300交换机故障的意思和可能产生的原因
怎么让win7右下角只显示时间不显示日期？(可行）
Linux下LDAP统一认证解决方案
教你如何禁用U盘、屏蔽USB端口的三种方法
开机自动启动一个新建文件夹
端口
输//ip提示找不到应用程序
java单向加密算法小结(2)--MD5哈希算法
java单向加密算法小结(1)--Base64算法
Git初探--笔记整理和Git命令详解

原文地址：https://www.cnblogs.com/simpledu/p/15840477.html