官网地址:http://jsoup.org/
Jsoup是一个开源的Java库,它可以用于处理实际应用中的HTML。它提供了非常便利的API来进行数据的提取及修改,充分利用了 DOM,CSS以及jquery风格方法的长处。
Jsoup实现了WAHTWG HTML5的规范,它从HTML解析出来的DOM和Chrome以及Firefox这样的现代浏览器解析出来的完全一致。下面是Jsoup库的一些有用的 特性:
- Jsoup可以从URL,文件,或者字符串中获取并解析HTML。
- Jsoup可以查找并提取数据,可以使用DOM遍历或者CSS选择器。
- 你可以使用Jsoup来修改HTML元素,属性以及文本。
- Jsoup通过一个安全的白名单确保了用户提交的内容是干净的,以防止XSS攻击。
- Jsoup还能输出整洁的HTML。
Jsoup的设计初衷是用于处理现实生活中出现的各种不同的HTML,包括正确有效的HTML以及不完整的无效的标签集合。Jsoup的一个核心竞争力就是它的健壮性。