基于Java
的html解析器Jsoup
的简单介绍
Jsoup 下载
Jsoup
是一个基于Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。
- 使用
Maven
下载:
(Maven使用可以参照以往的博客)
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.9.2</version>
</dependency>
- 官网Jsoup
Jsoup 使用
特点:
- 没有关闭的标签 (比如:
Lorem
Ipsum parses to
Lorem
Ipsum
) - 隐式标签 (比如. 它可以自动将
Table data 包装成?) - 创建可靠的文档结构(html标签包含head 和 body,在head只出现恰当的元素)
- 1 Jsoup.parse(String html)和Jsoup.parse(String html, String baseUri); // 解析一个
HTMl
字符串 - 2 Jsoup.parseBodyFragment(String html); // 解析一个
body
片断 - 3 Jsoup.connect(String url); //从一个
URL
解析一个Document
可以通过选择器来查找元素 - 4 Jsoup.parse(File in, String charsetName, String baseUri); //从本地加载一个
文档
- 解析一个
HTMl
字符串
String html = "<html><head><meta charset='UTF-8'><title>three.js</title></head><body>"+ "<script type='text/javascript' src='js/Three/three.js'></script>"+ "<script></script></body></html>"; Document doc = Jsoup.parse(html); System.out.println(doc);
output:
<html> <head> <meta charset="UTF-8" /> <title>three.js</title> </head> <body> <script type="text/javascript" src="js/Three/three.js"></script> <script></script> </body> </html>
- 解析一个
URL
,这里我们解析的是Google
的首页的登陆按钮(按钮id:gb_70
)然后回去按钮的文本。
Document google = Jsoup.connect("https://www.google.com.hk/").get(); Element login = google.getElementById("gb_70"); System.out.println(login.text());
output:登入
- 相关阅读:
并发队列、线程池、锁
JVM、垃圾收集器
Socket网络编程
Netty入门
SpringCloud微服务负载均衡与网关
Android监听耳机按键事件
利用本地不同磁盘文件夹作为git远程仓库进行灾备
chrome浏览器form中button每点击一次,form就会提交一次
[企业路由器] 一对一NAT映射设置指导
win7镜像自带IE9的卸载
- 原文地址:https://www.cnblogs.com/chenjy1225/p/9661350.html
- 最新文章
-
Pytorch Code积累
Sequence Models and Long-Short Term Memory Networks
Word Embeddings: Encoding Lexical Semantics
Generating Names and Classifying Names with Character-Level RNN
Grokking PyTorch
站点搬家说明+此处停止更新通知+书写方式变更说明
Aria2在Windows上如何安装配置使用
CentOS7 firewall与iptables防火墙的使用与开放端口
WordPress中.user.ini 权限问题
vim文本编辑器的基本使用方法
Copyright © 2020-2023 润新知