写在前面
今天主要学习了深度学习的概况以及Spark实验的01与02
机器学习部分
主要是深度学习的概论,以及使用了TensorFlow构建了一个简单的神经网络进行图像识别。
Spark部分
题目简介
主要记录一个没想出来的题,题目如下:
学生的成绩清单格式如下所示,第一行为表头,各字段意思分别为学号、性别、课程名1、课程名 2 等,后面每一行代表一个学生的信息,各字段之间用空白符隔开
Id gender Math English Physics
301610 male 80 64 78
301611 female 65 87 58
...
给定任何一个如上格式的清单(不同清单里课程数量可能不一样),要求尽可能采用函数式编程,统计出各门课程的平均成绩,最低成绩,和最高成绩;另外还需按男女同学分开, 分别统计各门课程的平均成绩,最低成绩,和最高成绩。
给了这样的测试数据:
Id gender Math English Physics
301610 male 80 64 78
301611 female 65 87 58
301612 female 44 71 77
301613 female 66 71 91
301614 female 70 71 100
301615 male 72 77 72
301616 female 73 81 75
301617 female 69 77 75
301618 male 73 61 65
301619 male 74 69 68
301620 male 76 62 76
301621 male 73 69 91
301622 male 55 69 61
301623 male 50 58 75
301624 female 63 83 93
301625 male 72 54 100
301626 male 76 66 73
301627 male 82 87 79
301628 female 62 80 54
301629 male 89 77 72
Id gender Math English Physics Science
301610 male 72 39 74 93
301611 male 75 85 93 26
301612 female 85 79 91 57
301613 female 63 89 61 62
301614 male 72 63 58 64
301615 male 99 82 70 31
301616 female 100 81 63 72
301617 male 74 100 81 59
301618 female 68 72 63 100
301619 male 63 39 59 87
301620 female 84 88 48 48
301621 male 71 88 92 46
301622 male 82 49 66 78
301623 male 63 80 83 88
301624 female 86 80 56 69
301625 male 76 69 86 49
301626 male 91 59 93 51
301627 female 92 76 79 100
301628 male 79 89 78 57
301629 male 85 74 78 80
思路分析
首先我们可以看到,这里的科目数量并不是固定的,意味着我们的程序不能写死了。题目也有要求说要尽量使用函数式编程。因此我们的程序要是个活的。
首先要把数据读入进来,这里使用的是从文件读取的方式:
// 从文件中读取测试数据
val source1: BufferedSource = Source.fromFile("datas/test1.txt")
然后我们按空格切分数据,转成List类型方便我们进行操作
// 把每行数据切割
val splitSource: List[Array[String]] = source1.getLines().map(_.split(" ")).toList
之后我们先提取出一些需要的数据:
// 获取学科名称
val courseNames: Array[String] = splitSource.head.drop(2)
// 获取所有学生的信息
val allStudents = splitSource.tail
// 获取课程数量
val courseNum = courseNames.length
接下来便是重要方法了,统计结果。这里采用的是for循环,把数据处理成一个三元组,然后返回回来:
def getData(lines: List[Array[String]], courseNum: Int) = {
// 通过for循环生成 (平均分,最低分,最高分) 三元组
for (i <- 2 to courseNum + 1) yield {
//取出需要统计的列
val temp: List[Double] = lines.map(_ (i).toDouble)
(temp.sum / lines.length, temp.min, temp.max)
}
}
这里的yield关键字表示把for循环的返回值进行返回,调用scala自带的函数完成各个值的计算
之后我们把结果打印出来:
//输出结果函数
def printResult(courseNames: Array[String], theResult: Seq[(Double, Double, Double)]) {
// 通过zip方法合并课程名称和数值
(courseNames zip theResult).foreach {
case (course, result) =>
println(f"${course + ":"}%-10s${result._1}%5.2f${result._2}%8.2f${result._3}%8.2f")
}
}
这里使用了拉链函数zip,把对应的课程名和数值放到了一起。
全部代码
关于男女统计,这里使用了filter实现,这里附上全部的代码
/**
* @Description:
* @author: LiuGe
* @date: 2021/2/4
*/
object Exp02_03 {
/*
学生的成绩清单格式如下所示,第一行为表头,各字段意思分别为学号、性别、课程名1、课程名 2 等
后面每一行代表一个学生的信息,各字段之间用空白符隔开
给定任何一个如上格式的清单(不同清单里课程数量可能不一样),要求尽可能采用函数式编程
统计出各门课程的平均成绩,最低成绩,和最高成绩
另外还需按男女同学分开,分别统计各门课程的平均成绩,最低成绩,和最高成绩。
*/
def main(args: Array[String]): Unit = {
// 从文件中读取测试数据
val source1: BufferedSource = Source.fromFile("datas/test1.txt")
// val source2: BufferedSource = Source.fromFile("datas/test2.txt")
// 把每行数据切割
val splitSource: List[Array[String]] = source1.getLines().map(_.split(" ")).toList
// 获取学科名称
val courseNames: Array[String] = splitSource.head.drop(2)
// 获取所有学生的信息
val allStudents = splitSource.tail
// 获取课程数量
val courseNum = courseNames.length
// 统计各门课程的平均成绩,最低成绩,最高成绩
val studentInfo = getData(allStudents, courseNum)
println("course average min max")
printResult(courseNames, studentInfo)
// 按性别过滤数据
val maleLines = allStudents.filter(_ (1) == "male")
val femaleLines = allStudents.filter(_ (1) == "female")
// 男生 输出结果
val maleResult = getData(maleLines, courseNum)
println("course average min max (Male)")
printResult(courseNames, maleResult)
// 女生 输出结果
val femaleResult = getData(femaleLines, courseNum)
println("course average min max (Female)")
printResult(courseNames, femaleResult)
}
def getData(lines: List[Array[String]], courseNum: Int) = {
// 通过for循环生成 (平均分,最低分,最高分) 三元组
(for (i <- 2 to courseNum + 1) yield {
//取出需要统计的列
val temp = lines.map {
elem => elem(i).toDouble
}
(temp.sum, temp.min, temp.max)
}).map {
case (total, min, max) => (total / lines.length, min, max)
}
}
//输出结果函数
def printResult(courseNames: Array[String], theResult: Seq[(Double, Double, Double)]) {
// 通过zip方法合并课程名称和数值
(courseNames zip theResult).foreach {
case (course, result) =>
println(f"${course + ":"}%-10s${result._1}%5.2f${result._2}%8.2f${result._3}%8.2f")
}
}
}
总结
总的来说,今天主要复习了scala的基础知识,学习了深度学习的概况。