开源项目Html Agility Pack实现快速解析Html

开源项目Html Agility Pack实现快速解析Html
【转】开源项目Html Agility Pack实现快速解析Html

这是个很好的的东西，以前做Html解析都是在用htmlparser，用的虽然顺手，但解析速度较慢，碰巧今天找到了这个，就拿过来试，一切出乎意料，非常爽，推荐给各位使用。

下面是一些简单的使用技巧，希望对大家有用，我个人也是个学习过程。

Why Html Agility Pack? (以下简称HAP)

.Net下解析HTML文件有很多种选择，包括微软自己也提供MSHTML用于manipulate HTML文件。但是，经过我一段时间的搜索，Html Agility Pack浮出水面：它是Stackoverflow网站上推荐最多的C# HTML解析器。HAP开源，易用，解析速度快。

How to use HAP?

1. 下载http://htmlagilitypack.codeplex.com/

2. 解压

3. 在Visual Studio Solution里，右击project -> add reference -> 选择解压文件夹里的HTMLAgilityPack.dll -> 确定

4. 代码头部加入 using HtmlAgilityPack;

Done!
1. HtmlWeb webClient = new HtmlWeb();
2. HtmlDocument doc = webClient.Load("http://xxx");
4. HtmlNodeCollection hrefList = doc.DocumentNode.SelectNodes(".//a[@href]");
6. if (hrefList != null)
7. {
8. foreach (HtmlNode href in hrefList)
9. {
10. HtmlAttribute att = href.Attributes["href"];
11. doSomething(att.Value);
13. }
15. }
Q: 如何根据ID选择HTML结点？

A: 利用@id='xxx', e.g.,
1. HtmlNode bugSum = doc.DocumentNode.SelectSingleNode("//h2[@id='summary']");
Q: 如何得到结点的文字内容或Html内容？
1. node.InnerText.Trim()
2. node.InnerHtml
3. node.OuterHtml
Q: 如何在html树结构下查找结点？

A: 比如从根节点查找id=container的div下的第一个table:
1. HtmlNode table = doc.DocumentNode.SelectSingleNode("//div[@id='container']/table[1]");
注意路径里"//"表示从根节点开始查找，两个斜杠‘//’表示查找所有childnodes；一个斜杠'/'表示只查找第一层的childnodes（即不查找grandchild）；点斜杠"./"表示从当前结点而不是根结点开始查找。接上一行代码，比如要查找table所有直接子结点的tr:
1. HtmlNodeCollection tr = table.SelectNodes("./tr");
Q: 如何得到结点的ID？

A：很简单： node.ID

Q: 如果一段html存在字符串里，是否可以用Html Agility Pack进行处理？

A：可以，先将字符串load进来，之后的处理方法一样：
1. <pre name="code" class="csharp">//load the original html
2. string html = "some html stuff"
3. HtmlDocument doc = new HtmlDocument();
4. doc.LoadHtml(@html);
Q: 我对load进来的html进行了一些处理，比如改变了一些结点内容，删除了一些结点什么的，为什么结果却没有变化？

A: 也许你忘记save你对html的改变了，假设html存在字符串中：
1. //load the original html
2. string html = "some html stuff"
3. HtmlDocument doc = new HtmlDocument();
4. doc.LoadHtml(@html);
6. //make some changes
7. doSomething();
9. //save the change
10. var sb = new StringBuilder();
11. using (var writer = new StringWriter(sb))
12. {
13. doc.Save(writer);
14. }
Q: 如何去掉外层的html tag只留下内容？

A: 用remove方法。假设结点<a href=xxx>ABCD</a>，你想留下ABCD而不要<a></a>，那你需要先得到这个Html结点，假设叫link:
1. link.ParentNode.RemoveChild(link,true);
参数true表示留下grandchild，在这里即内容ABCD; false表示将此结点连同其grandchilds一起删除。

规则有很多，网上提供了源代码，可以研究一下，还有源代码有乱码问题，是字符集的问题，只需要写一个方法来自动判断就可以解决了
纸上得来终觉浅,绝知此事要躬行。
相关阅读:
已看1.熟练的使用Java语言进行面向对象程序设计，有良好的编程习惯，熟悉常用的Java API，包括集合框架、多线程（并发编程）、I/O（NIO）、Socket、JDBC、XML、反射等。[泛型]
数据库相关内容已看1 有用
 JS jquery ajax 已看1 有用
 Web性能优化高并发网站解决单例已看1
框架和事务非常有用 hibernate和mybatis区别
 SpringMVC内容略多有用熟悉基于JSP和Servlet的Java Web开发，对Servlet和JSP的工作原理和生命周期有深入了解，熟练的使用JSTL和EL编写无脚本动态页面，有使用监听器、过滤器等Web组件以及MVC架构模式进行Java Web项目开发的经验。
客户注册功能，发短信功能分离通过ActiveMQ实现
 在线下单
 LeetCode -- Count and Say
LeetCode -- Word Pattern
原文地址：https://www.cnblogs.com/coky/p/6702545.html