day28-RDD 转换算子(5) - 润新知

day28-RDD 转换算子(5)
distinct

将数据集中重复的数据去重
```
val dataRDD = sparkContext.makeRDD(List(
 1,2,3,4,1,2
),1)
val dataRDD1 = dataRDD.distinct()
val dataRDD2 = dataRDD.distinct(2)
```
coalesce

根据数据量缩减分区，用于大数据集过滤后，提高小数据集的执行效率
当 spark 程序中，存在过多的小任务的时候，可以通过 coalesce 方法，收缩合并分区，减少
分区的个数，减小任务调度成本
```
val dataRDD = sparkContext.makeRDD(List(
 1,2,3,4,1,2
),6)
val dataRDD1 = dataRDD.coalesce(2)
```
相关阅读:
洛谷 P5043 树的同构题解
 CF 1178E Archaeology 题解
 UVA 1642 MagicalGCD 题解
 洛谷 P3919 可持久化线段树题解
 SPOJ 4003 Phone List 题解
 OI/ACM最全卡常大招
 洛谷 P3368 树状数组题解
 逆序对
 洛谷 U78696 图书馆馆长的考验题解
 原创疲劳炉石传说
原文地址：https://www.cnblogs.com/wuren-best/p/14464380.html

Copyright © 2020-2023 润新知