HtmlAgilityPack 是CodePlex 上的一个开源项目。它提供了标准的DOM API 和XPath 导航--即使 HTML 不是适当的格式!
使用HtmlAgilityPack操作HTML比正则表达式好用一些。
1 WebClient page = new WebClient(); 2 page.Encoding = Encoding.UTF8; 3 page.BaseAddress = "http://www.cnblogs.com"; 4 5 String url = "/n/200069/"; 6 String html = String.Empty; 7 8 html = page.DownloadString(url); 9 10 HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument(); 11 document.LoadHtml(html);
取得document对象后,使用XPath对其进行操作。