用Spark做单表关联

##按照hadoop的思想胡乱搞了一下，但是结果不对。。。。

##需要再思考

from pyspark import SparkContext

sc = SparkContext('local','STJoin')

rdd = sc.textFile("file:///usr/local/spark/mycode/TestPackage/ST.txt")

num = rdd.flatMap(lambda line : line.split(" ")).map(lambda a : (a,1)).keys().collect()
num.remove('child')
num.remove('parent')
child=[]
parents=[]
STs=[]
for i in range(0,len(num)):
    if i % 2 ==0:
        child.append(num[i])
    else:
        parents.append(num[i])
for i in child:
    for j in parents:
        STs.append(i+" "+j)

STsRDD = sc.parallelize(STs)
relation = STsRDD.map(lambda a : (a,1)).reduceByKey(lambda a,b : (a+b))
relation.foreach(print)

相关阅读:
N^N hdu1060
二叉树的所有操作
溢出问题
POJ1562深搜问题
已知前序，中序，求后序
交换a,b
深度和广度优先搜索
最长回文子串
scanf
WCF Ria Service 理解

原文地址：https://www.cnblogs.com/SoftwareBuilding/p/9417834.html