Spark中groupByKey和reduceByKey的区别

重点比较reduceByKey和groupByKey:
相同点：
1,都作用于 RDD[K,V]
2，都是根据key来分组聚合
3，默认，分区的数量都是不变的，但是都可以通过参数来指定分区数量

不同点：
1， groupByKey默认没有聚合函数，得到的返回值类型是RDD[ k,Iterable[V]]
2， reduceByKey 必须传聚合函数得到的返回值类型 RDD[(K,聚合后的V)]
3， groupByKey().map() = reduceByKey

最重要的区别：
reduceByKey 会进行分区内聚合，然后再进行网络传输
groupByKey 不会进行局部聚合

结论：
如果这两个算子，都可以使用，优先使用reduceByKey

相关阅读:
关于隐藏元素高度的问题 css visibility:hidden 与 display:none的区别
三星R428 内存不兼容金士顿2G DDR3
IE （6-11）版本，在使用iframe的框架时，通过a标签javascript:; 和js跳转parent.location的时候出现在新页面打开的情况
按键精灵 vbs 获取网页源码 xp系统被拒绝
threejs 组成的3d管道，寻最短路径问题
javaweb部署多个项目（复制的项目）
添加无登录权限的SSH用户命令
Using Blocks in iOS 4: Designing with Blocks
Using Blocks in iOS 4: The Basics
Understanding Objective-C Blocks

原文地址：https://www.cnblogs.com/hanhaotian/p/12563902.html