[Spark RDD_add_1] groupByKey & reduceBykey 的区别 - 润新知

[Spark RDD_add_1] groupByKey & reduceBykey 的区别
　　【groupByKey & reduceBykey 的区别】

　　在都能实现相同功能的情况下优先使用 reduceBykey

　　Combine 是为了减少网络负载

　　1. groupByKey 是没有 Combine 过程，可以改变 V 的类型
　　List[]
```
combineByKeyWithClassTag[CompactBuffer[V]](createCombiner, mergeValue, mergeCombiners, partitioner, mapSideCombine = false)
```
　　2. reduceByKey 有 Combine 过程，不能改变 V 的类型
　　List[]
```
combineByKeyWithClassTag[V]((v: V) => v, func, func, partitioner)
```
　　【通过测试气温数据的双排序考察 reduceByKey 和 groupByKey() 的不同】
　　1.启动 Hadoop 和 Spark 集群
　　2.上传 temp.txt 数据到 HDFS
　　3.启动 Shell 进行以下操作

　　【启动 Shell】
```
spark-shell --master spark://s101:7077 --deploy-mode client
```
　　【test_1】

　　

　　【test_2】

　　
且将新火试新茶，诗酒趁年华。
相关阅读:
程序员修炼之道阅读笔记
 11.5
11.3
11.2
11.1java读取Excel表格
 软工概论第二周学习进度表
 软工概论第二周个人项目四则运算一
 软工概论第一次课堂测试
 软工概论第一周学习进度表
 软工概论第一周动手动脑
原文地址：https://www.cnblogs.com/share23/p/9783231.html

热门文章
JS中的与或非
 JS中的冒泡事件
 获取DOM元素
 DOM树
 CSS粘性定位
 11.12
11.11
11.8
11.9Ajax发送请求原生js实现
 11.7

Copyright © 2020-2023 润新知