第一次个人编程作业----网页爬取数据

博客班级	https://edu.cnblogs.com/campus/fzzcxy/2018SE2
作业要求	https://edu.cnblogs.com/campus/fzzcxy/2018SE2/homework/11169
作业目标	<学会爬取网页数据，并利用，尝试使用软件工程的理论知识，熟悉使用Git>
作业源代码	https://gitee.com/huang-cy/software-engineering-uml/tree/master/first
学号	<211814113>

1. 需求目标

实现网页数据的爬取，并对数据进行处理，得到需要的数据。

2.题目分析

爬取云班课上的相应数据，并进行处理，算出自己的分数，上传码云。

3. 题目思路

保存大班课和小班课数据，保存为HTML文件。
对HTML数据进行处理。
- 根据资料查询，使用 Jsoup 对HTML进行数据处理。
- 数据获取完成，选择所需数据（主要使用到，“经验值”，”已参与“，”课堂完成部分“，”小测“，“编程题”，“附加题”等数据），进行分数计算，这里有个陷阱（课堂完成部分应该 * 95，编程题 * 95，附加题 * 90）
题目完成之后，将所用的到文件传至码云。

4. 题目所用到的一些技术

#####  4.1 Jsoup

4.1.1将网页封装成 Document 对象

Document document = Jsoup.parse(new File("D:\all.html"),"UTF-8");
Element title = document.getElementsByTag("title").first();
System.out.println(title.text());

4.1.2元素获取

getElementsById根据id查询元素
getElementsByTag根据标签查询元素
getElementsByClass根据class获取元素
getElementsByAttribute根据属性获取元素

Element element = document.getElementById("city_bj");

element = document.getElementsByTag("title").first();


element = document.getElementsByClass("s_name").last();

element = document.getElementsByAttribute("abc").first();
element = document.getElementsByAttributeValue("class", "city_con").first();

4.1.3 Selector选择器

Select 方法支持在Document, Element,或Elements对象中使用。且是上下文相关的，因此可实现指定元素的过滤，或者链式选择访问。** 返回一个Elements集合，并提供一组方法来抽取和处理

4.2 propertise 在 idea 中的配置

右键工程项目 -> New --> Resource Bundle

明明文件就能生成propertise文件

5.题目过程

5.1 主体函数

分别计算before，base，test，program，add分数，以及最后的总分

5.2 具体过程

Document allDocument = Jsoup.parse(new File("src\first\all.html"),"UTF-8");
Document smallDocument = Jsoup.parse(new File("src\first\small.html"),"UTF-8");

获取all.html 和 small.html 文件的数据并且分装在Document 对象中

进行具体定位到某一个div整体，

通过for 循环对数据分数进行相加

加载propertise文件

6. 最后总结

对java Jsoup 不熟练，有思路却做不出来。在借鉴同学的对具体数据获取的处理之后才把自己的思路做出成果。

相关阅读:
wordpress站点更换域名了如何快速设置
wordpress调用文章摘要,若无摘要则自动截取文章内容字数做为摘要
宝塔https部署没成功的原因排查
全球百大网站排行榜6月榜出炉
深度 | 邢波教授谈人工智能科学路径：为人工智能装上「无穷动」引擎
C++中public,protected,private派生类继承问题和访问权限问题
谁再说Matlab速度慢，我跟谁急
C++常用的#include头文件总结
Visual Studio的调试技巧
How to (seriously) read a scientific paper

原文地址：https://www.cnblogs.com/SakuraHCY/p/13668738.html