这是网友在论坛问到的问题,网友要求:“我想要抓取每一个<!-- 文字新闻spider begin -->开始<!-- 文字新闻spider end --> 结尾的中间那一部分的内容已更改如何处理?其他的不要” 。原题如下:
其实这个问题,就是我们常说的收集网页内容的知识。从网页截取哪些有用的东西。
下面Insus.NET先来演示一下:
在演示中,Insus.NET在网页添加一个铵钮,执行获取的内容显示,显示的内容在网页第一行。因为是使用Response.Write()方法。
Insus.NET使用的方法,是在网页override void Render(HtmlTextWriter writer)中进行。不过得先写一个方法,即是获取两个截取标签之间的内容:
下面override Render方法:
由于只是个演示,Insus.NET把结果暂存入Session中。根据实际情况与需求,你获取到内容之后,做你实际的操作。
下面是按钮事件,这步只是在此为演示显示结果: