新手在使用 Spark RDD 获取排序后前 N 数据时遇到的一个坑

在学习Spark的过程中，写程序统计单词数量的时候，突然想把统计后的（单词, 次数) 这样的集合根据各单词出现的次数从高到低倒序排列。于是在网上查了下有sortBy()函数可以实现。试了下没问题。然而由于单词过多，排序后打印出来的结果过长，于是想取前 10 条来验证，自然地想到使用top()函数，在 Spark Shell 中尝试了，也确实有这个函数，但是得到的结果却并不是次数最高的单词，多试了几次发现是根据单词排序后的前 10。觉得很不解。

明明是先根据次数排序再取 top，为什么得到的结果却是根据单词排序后的结果呢？后来在这篇文章中得到了结果。作者看了源码发现，在调用 top 函数时，后台会根据 key 做一次排序，就会把我这里先根据次数排序的效果给打消。而正确的做法是使用 take() 函数：

count.sortBy(_._2, false).take(10)

这样就可以得到想要的结果了

参考：https://blog.csdn.net/dai451954706/article/details/52668258

（本文完）
--------------------------------------------------------------------------------------------------------------------------
致虚极，守静笃

使用我的阿里云幸运券，购买阿里云ECS有优惠：阿里云幸运券
>>>>> 腾讯云新用户优惠 <<<<<

相关阅读:
ASP.NET 2.0 X64 引起的问题
.net 俱乐部7月份资料下载 .net 开源项目
用schemaSpy制作数据库文档
IbatisNet支持2.0的版本Release 发布了
Introduction to Model Driven Development with AndroMDA
开放源代码与.NET应用程序平台的性能测试
sqlserver 2000/2005 Ambiguous column error错误解决办法
ASP.NET 2.0 中 Web 事件
使用asp.net 2.0的CreateUserwizard控件如何向自己的数据表中添加数据
Working with Windows Workflow Foundation in ASP.NET

原文地址：https://www.cnblogs.com/wuzhiblog/p/14416652.html