用Spark做去重操作

#原理很简单：先是通过flatMap函数，把rdd进行扁平化操作，再用map函数得到(k,1)的样式，然后再用groupByKey函数，合并value值，就相当于对key进行去重操作，再用keys()函数，取出key
 
实验数据：delcp.txt
　　　　hello
　　　　hello
　　　　world
　　　　world
　　　　h
　　　　h
　　　　h
　　　　g
　　　　g
　　　　g


from pyspark import SparkContext

sc = SparkContext('local','delcp')

rdd = sc.textFile("file:///usr/local/spark/mycode/TestPackage/delcp.txt")
delp = rdd.flatMap(lambda line : line.split(" ")
).map(lambda a : (a,1)).groupByKey().keys()

delp.foreach(print)

相关阅读:
Delphi TCXTreeList的一些操作
Authentication failure. Retrying 彻底解决vagrant up时警告
Linux查看mysql 安装路径和运行路径
和重复搭建开发环境说 Bye Bye 之Vagrant
怎样查看MySql数据库物理文件存放位置
10分钟彻底理解Redis持久化和主从复制
胡子决定编程语言运势
总结: asp.net页面间数据传递(转)
利用System.IO中的Directory类对目录进行基本操作
SQL中读出表中字段

原文地址：https://www.cnblogs.com/SoftwareBuilding/p/9412182.html