以Groovy的方式更稳定地解析HTML（转载）

以Groovy的方式更稳定地解析HTML（转载）
如何使用Groovy解析无法通过XML验证的HTML代码

原文：Robust HTML parsing the Groovy way

用Groovy解析XML很简单，只要确保输入的数据格式良好就能运行的很好——但现实并非总是能保证这一点。视考虑HTML代码，想让它们通过XML的验证总是困难重重，这就需要 TagSoup 来拯救了。

主要的阻碍来自于：
1. DTD
2. 未闭合的标签
让我们通过一个简单的脚本来演示解析 StackOverflow 的页面
[java] view plain copy
1. def slurper = new XmlSlurper()
2. def htmlParser = slurper.parse("http://stackoverflow.com/")
4. htmlParser.'**'.findAll{ it.@class == 'question-hyperlink'}.each {
5. println it
6. }
脚本访问stack overflow的主页并打印所有带有'question-hyperlink'属性的项。但运行时抛出如下异常：Caught: java.io.IOException: Server returned HTTP response code: 503 for URL: http://www.w3.org/TR/html4/strict.dtd at html_parser.run(html_parser.groovy:7)

译注：这一问题在升级到 Groovy 1.8 后已经不复存在

XmlSlurper在解析HTML DTD时遇到问题，通过另一博客中的方法可以解决。
[java] view plain copy
1. def slurper = new XmlSlurper()
2. slurper.setFeature("http://apache.org/xml/features/nonvalidating/load-external-dtd", false)
3. def htmlParser = slurper.parse("http://stackoverflow.com/")
5. htmlParser.'**'.findAll{ it.@class == 'question-hyperlink'}.each {
6. println it
7. }
但是由于存在未闭合的标签，脚本再次报错。这里 TagSoup 登场来解决此问题。最棒的是，tagsoup 和 XmlSlurper 能够非常好的配合，以下为示范
[java] view plain copy
1. @Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )
2. def tagsoupParser = new org.ccil.cowan.tagsoup.Parser()
3. def slurper = new XmlSlurper(tagsoupParser)
4. def htmlParser = slurper.parse("http://stackoverflow.com/")
5. htmlParser.'**'.findAll{ it.@class == 'question-hyperlink'}.each {
6. println it
7. }
首行用来获取tagsoup的库，此后将tagsoupParser的实例赋给XmlSlurper即可。

本文转载自 http://blog.csdn.net/hiarcs/article/details/6628062
相关阅读:
PGPDesktop在win7环境下的安装和使用
 2017-2018-1 20155214 《信息安全技术》实验二
 2017-2018-1 20155214 《信息安全系统设计基础》第6周学习总结
 2017-2018-1 20155214 《信息安全系统设计基础》第6周课下作业
 2017-2018-1 20155214 《信息安全系统设计基础》第5周学习总结
 2017-2018-1 20155214 《信息安全系统设计基础》第四周学习总结
 2017-2018-1 20155214 《信息安全系统设计基础》第3周学习总结
 20155214 2017-2018-1 《信息安全系统设计基础》第1周学习总结
 Java程序设计第16周课堂实践 —— 数据库4
Java程序设计第16周课堂实践 —— 数据库3
原文地址：https://www.cnblogs.com/chenying99/p/3080180.html