大标题
摘要:
关键字:
1 第一题:(爬虫)
1.1 问题分析及解题思路
本题需要爬取xxxx的数据,运用Python的Request爬虫框架
1.2 解题流程及代码
1.2.1定义爬虫类-构造函数属性
1.2.2定义爬虫类-构造函数方法
1)获取html的方法
2)处理html的方法
3)保存数据的方法
4)进行网页爬取的方法
1.2.3 将数据导入Mysql
1.3 结果截图展示及分析
1.4 代码截图展示
2 第二题:(Hadoop)
2.1问题分析及解题思路
2.2解题流程及代码
2.3结果截图展示及分析
2.4代码截图展示
3 第三题:(假设是可视化题目)
3.1问题分析及解题思路
3.2解题流程及代码
3.3结果截图展示及分析
3.4代码截图展示
4 第四题:(假设Spark数据分析)
4.1问题分析及解题思路
4.2解题流程及代码
4.3结果截图展示及分析
4.4代码截图展示
5 第五题:(假设最短路径算法)
5.1问题分析及解题思路
5.1.1 题目分析
5.1.2 Dijkstra算法思想
设G=(V,E)是一个带权有向图,把图中顶点集合V分为两组,第一组为已求出最短路径的顶点集合(用S表示,初始时S中只有一个源点,以后每求得一条最短路径 , 就将加入到集合S中,直到全部顶点都加入到S中,算法就结束了),
第二组为其余未确定最短路径的顶点集合(用U表示),按最短路径的的递增次序依次把第二组中的顶点加入S中。在加入的过程中,总保持从源点v到S中各个顶点的最短路径长度不大于从源点v到U中任何路径的长度。
此外,每个顶点对应一个距离,S中的顶点的距离就是从v到此顶点的最短路径长度,U中的顶点的距离,是从v到此顶点只包括S中的顶点为中间顶点的当前路径的最短长度。
5.1.3 Dijkstra算法步骤
1)初始时,只包括源点,即S = {v},v的距离为0。U包含除v以外的其他顶点,即:U ={其余顶点},若v与U中顶点u有边,则(u,v)为正常权值,若u不是v的出边邻接点,则(u,v)权值 ∞;
2)从U中选取一个距离v最小的顶点k,把k,加入S中(该选定的距离就是v到k的最短路径长度)。
3)以k为新考虑的中间点,修改U中各顶点的距离;若从源点v到顶点u的距离(经过顶点k)比原来距离(不经过顶点k)短,则修改顶点u的距离值,修改后的距离值的顶点k的距离加上边上的权。
4)重复步骤b和c直到所有顶点都包含在S中。
5.2解题流程及代码
5.3结果截图展示及分析
5.4代码截图展示
6 第六题:(假设分类算法题)
6.1问题分析及解题思路
6.2解题流程及代码
6.2.1 查看数据
6.2.2 数据预处理
6.2.3 数据可视化
6.2.4 划分数据集
6.2.5 模型的选择
6.2.6 模型的训练
6.2.7 模型的评估
6.3结果截图展示及分析
6.4代码截图展示
7 实验评价及拓展
附录
附录一: