基于Java的HTML解析器

最近要做网络信息的采集，解析HTML是必不可少的，查了下这方面的工具还不少，但是不知道哪个好用，似乎HTMLParser是用的多点的，但是从06年开始就不再更新了，大概是已经满足HTML 4的解析了吧，收集了几个看起来不错的，留着备用。

Java Mozilla Html Parser
能够将html解析成Java Document对象。它是一个基于Mozilla Html解析器封装的Html解析类库。因此能够为开发人员提供一个浏览器质量的HTML解析器。
地址：http://mozillaparser.sourceforge.net/

HtmlCleaner
是一个开源的Html文档解析器。HtmlCleaner能够重新排序每个元素然后生成结构良好(Well-Formed)的XML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而，用户可以提供自定义tag和规则组来进行过滤和匹配。
地址：http://htmlcleaner.sourceforge.net/

HTML Parser
地址：http://htmlparser.sourceforge.net/

Jsoup

是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。比起之前用的HTMLParser方便很多，而且更轻便。
地址：http://jsoup.org/

-------------------------------------------------------------------------

另外可以从开源中国上找到诸如Jsoup的一些文章，如：http://www.oschina.net/p/jsoup

本文用菊子曰发布

相关阅读:
高效存储过程分页
c#函数参数
MonoRail学习：可重复组件ViewComponents的使用
跨域SSO的实现
WebSockets基础
NVelocity用法
MonoRail MVC应用(2)-构建多层结构的应用程序
MonoRail学习－入门实例篇
关于transform属性导致字体模糊的问题
在小程序中实现收缩展开

原文地址：https://www.cnblogs.com/srliuhao/p/1815183.html