在说之前,大家说说一般的采现方法是如何实的呢,
想信大多数面试的人员都想到用正则表达式实现采集
的确这是大众都想到的方法.不能说错,也只能说他的采集效率,及采集到的内容,大多数都需要编写非常复杂的处理逻辑,并且相信大家在大学,以及工作中学习正则表达式都是一件不容易的事.我就觉得正则表达式那规律很难
今天给大家介绍新的一种方法 HTML Agility Pack 自已可以去网站去下载,,这里我就不多说了...
HTML Agility Pack 是由法国的一位软件架构师 Simon Mourier 开发的,并且由 DarthObiwan 以及 Jessynoo 辅助开发出來的一個工具,它可以让分析 HTML 的工作就像分析 XML 一样简单,它也有类似于 System.Xml 命名空间中的 XML DOM 的许多类,除了可以使用层次的方式存取 HTML 以外,它也支持使用 XPath 的方式搜索 HTML,这较以往使用文字对比或是 Regular Expression 的对比方式来得更明确
先来看看 HTML Agility Pack 是如何解释网页无素的 例如 www.baidu.com网站 如果我想采集 新闻 网页 贴吧知道MP3 这个标题文字
大家看上如上图所示了吧.................将原码进入HTML Agility Pack 转换成 XPATH格式 右下小图 XPATH 就是我们要采集的图径 value 即是你想要采集的值
大家也可以自已试着找别标签,,将要采集的标签进行记录 博客话要讲得通俗易懂,还真不是件容易的事..不知道到此我说清楚了吗...
下面将我写的一个小工具给大家讲讲
上面图面就是我刚才讲的要采集的记录XPATH 注意,因为XPATH的采集也有一部分在采集中存在特殊符号,
我们就在相应的下面加上一个正则表达式的过滤方法,这样就能达到更好处理,哦运行情况
今天就讲到这里,,,采集代码后继再给大家说说吧,也就给大家讲讲思路.
说得不好, 大家就将就看吧.........................