spark学习五

spark学习五

实战测试

1 spark-shell 交互式编程

题目：该数据集包含了某大学计算机系的成绩，数据格式如下所示：

Tom,DataBase,80

Tom,Algorithm,50

Tom,DataStructure,60

Jim,DataBase,90

Jim,Algorithm,60

Jim,DataStructure,80

……

请根据给定的实验数据，在 spark-shell 中通过编程来计算以下内容：

（1）该系总共有多少学生；

（2）该系共开设来多少门课程；

（3）Tom 同学的总成绩平均分是多少；

（4）求每名同学的选修的课程门数；

共265行

（5）该系 DataBase 课程共有多少人选修；

（6）各门课程的平均分是多少；

（7）使用累加器计算共有多少人选了 DataBase 这门课。

2 独立应用

2.1 实现数据去重，连接，排序

对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其

中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。

输入文件 A 的样例如下：

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

输入文件 B 的样例如下：

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下：

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

代码：

@Test
def test(): Unit ={
val conf=new SparkConf().setMaster("local[6]").setAppName("xlf_union")
val sc=new SparkContext(conf)
val ra=sc.textFile("dataset/a.txt")
val rb=sc.textFile("dataset/b.txt")
val rc=ra.union(rb)
.distinct()
.map(item => (item.split(" ")(0),item.split(" ")(1)))
.sortBy(item =>(item._1,item._2))
.collect()
val file = "dataset/c.txt"
val writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)))
for(x<- rc)
{
println(x)
writer.write(x+" ")
}
writer.close()
}

2.2 实现求平均值

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生

名字，第二个是学生的成绩；编写 Spark 独立应用程序求出所有学生的平均成绩，并输出到

一个新文件中。下面是输入文件和输出文件的一个样例，供参考。

Algorithm 成绩：

小明 92

小红 87

小新 82

小丽 90

Database 成绩：

小明 95

小红 81

小新 89

小丽 85

Python 成绩：

小明 82

小红 83

小新 94

小丽 91

平均成绩如下：

(小红,83.67)

(小新,88.33)

(小明,89.67)

(小丽,88.67)

代码：

@Test
def test2(): Unit ={
val conf=new SparkConf().setMaster("local[6]").setAppName("xlf_avg")
val sc=new SparkContext(conf)
val ra=sc.textFile("dataset/Algorithm.txt")
val rb=sc.textFile("dataset/Database.txt")
val rc=sc.textFile("dataset/Python.txt")
val out=ra.union(rb)
.union(rc)
.map(item => (item.split(" ")(0),item.split(" ")(1).toDouble))
.mapValues(v => (v,1))
.reduceByKey( (x,y) =>(x._1+y._1,x._2+y._2) )
.mapValues(v => (v._1/v._2).formatted("%.2f") )
.collect()
val file = "dataset/out.txt"
val writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(file)))
for(x<- out)
{
println(x)
writer.write(x+" ")
}
writer.close()

}
相关阅读:
20165323《Java程序设计》第九周学习总结
 20165323 实验三敏捷开发与XP实践
 20165323 结对编程之四则运算week2-整体总结
 20165334 20165311 20165329 实验四外设驱动程序设计
 实验四
 20165311 《信息安全系统设计基础》第七周学习
 20165311 《信息安全系统设计基础》第六周学习总结
 20165311 《信息安全系统设计基础》第四周学习总结
 20165311 20165334 20165329实验一开发环境的熟悉
 2018 第三周 20165311 缓冲区溢出漏洞实验和第三周学习总结
原文地址：https://www.cnblogs.com/022414ls/p/14458254.html

1 spark-shell 交互式编程

2 独立应用

2.1 实现数据去重，连接，排序

2.2 实现求平均值