Spark词频前十的统计练习

注：图片如果损坏，点击文章链接：https://www.toutiao.com/i6815390070254600712/

进一步延伸，做一个词频前十的统计练习

逻辑：在reduceByKey的基础上，首先要根据key对应的value值进行排序（降序排序），取前10个的结果就是Top10

val reduceByKeyRDD = sc.textFile("file:///opt/bigdata/spark/README.md").flatMap(_.split(" ")).filter(_.nonEmpty).map((_,1)).reduceByKey(_+_)

reduceByKeyRDD.sortBy(t => t._2,ascending=false)

reduceByKeyRDD.sortBy(t => t._2,ascending=false).take(10)

sortBy函数：第一个匿名函数表示按照元组的第二个元素进行排序，ascending=false表示按照降序排序，如果不指定这个参数，默认是升序的排序

reduceByKeyRDD.sortBy(t => t._2 * -1).take(10)

也实现了降序排列，提取TOP10

下面这个方法也可以

reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).map(t => t.swap).take(10)

分解看下：

reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).
t.swap ：("the",22) --> (22,"the") --> ("the",22)

reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).map(t => t.swap).take(10)

下面这个性能会更好：

reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).take(10).map(t => t.swap)

用top(10)代替sortByKey(ascending=false).take(10)这一部分

reduceByKeyRDD.map(t => t.swap).top(10).map(t => t.swap)

相关阅读:
Azure 中 Linux 虚拟机的大小
排查在 Azure 中创建、重启 Linux VM 或调整其大小时发生的分配故障
如何在 Azure 中的 Linux 经典虚拟机上设置终结点
针对通过 SSH 连接到 Azure Linux VM 时发生的失败、错误或被拒绝问题进行故障排除
Linux 内核超时导致虚拟机无法正常启动
Java并发编程（十三）同步容器类
可以开发着玩一下的web项目
org.tmatesoft.svn.core.SVNCancelException: svn: E200015: authentication canc
FastDFS单机搭建以及java客户端Demo
做前端（单纯页面和js）遇到的问题辑录（一）

原文地址：https://www.cnblogs.com/bqwzy/p/12696435.html