网页分页数据抓取的几种方式

网页分页数据抓取的几种方式

网页分页数据抓取的几种方式

相信所有个人网站的站长都有抓取别人数据的经历吧，目前抓取别人网站数据的方式无非两种方式：

  一、使用第三方工具，其中最著名的是火车头采集器，在此不做介绍。

二、自己写程序抓取，这种方式要求站长自己写程序，可能对对站长的开发能力有所要求了。

本人起初也曾试着用第三方的工具抓取我所需要的数据，由于网上的流行的第三方工具不是不符合我的要求，就是过于复杂，我一时没有搞明白怎么用，后来索性决定自己写吧，现在本人基本上半天可以搞定一个网站（只是程序开发时间，不包括数据抓取的时间）。

    经过一段时间的数据抓取生涯，也曾遇到了很多困难，其中最常见的一个就是关于分页数据的抓取问题，原因在于分数据分页的形式有很多种，下面我主要针对三种形式介绍一下抓取分页数据的方法，此类文章虽然在网上见过很多，但每次拿别人的代码总也总是有各种各样的问题，下面各种方式的代码都是能正确执行，并且我目前也正在使用中的。本文中代码实现是用C#语言来实现的，我想其他语言原理大致相同

下面切入正题：

     第一种方式：URL地址中包含分页信息，这种形式是最简单的，这种形式使用第三方工具抓取也很简单，基本上不用写代码，对于我这种宁可自己花个半天时间写代码也懒得学第三方工具的人，还是通过自己写代码实现了；

    这种方式就是通过循环生成数据分页的URL地址如：这样通过HttpWebRequest访问对应URL地址，返回对应页面的html文本，接下来的任务就是对字符串的解析，将需要的内容保存到本地数据库内；抓取的代码可参考下面：

public string GetResponseString(string url)
        {

            string _StrResponse = "";
            HttpWebRequest _WebRequest = (HttpWebRequest)WebRequest.Create(url);
            _WebRequest.UserAgent = "MOZILLA/4.0 (COMPATIBLE; MSIE 7.0; WINDOWS NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)";
            _WebRequest.Method = "GET";
            WebResponse _WebResponse = _WebRequest.GetResponse();
            StreamReader _ResponseStream = new StreamReader(_WebResponse.GetResponseStream(), System.Text.Encoding.GetEncoding("gb2312"));
            _StrResponse = _ResponseStream.ReadToEnd();
            _WebResponse.Close();
            _ResponseStream.Close();
            return _StrResponse;
        }

上面的代码可以返回对应页面的html内容的字符串，剩下的工作就是从这个字符串中获取自己关心的信息了。

第二种方式：可能是通过asp.net开发的网站常会遇到，它的分页控件通过post方式提交分页信息到后台代码，如.net下Gridview自带的分页功能，当你点击分页的页码时，会发现URL地址没有变化，但页码变化了，页面内容也变化，仔细看会发现，把鼠标移到每个页码上的时候状态栏会显示 javascript:__dopostback("gridview","page1")等等之类的代码，这种形式其实也不是很难，因为毕竟有地方得到页码的规律可寻。

   我们知道http请求提交的方式有两种一种是get一种是Post，第一种方式是get方式，那么第二种方式就是post方式，具体提交的原理不必细说，不是本文的重点

抓取这种页面需要注意asp.net页面的几个重要的元素

   一、 __VIEWSTATE ，这个应该是.net特有的，也是让.net开发人员既爱又恨的东西，当你打开一个网站的某一个页面的时候，如果发现这个东西，而且后面还跟随着一大堆乱七八糟的字符的时候，那这个网站肯定是用asp.net写的了;

   二、__dopostback方法，这个是asp.net页面自动生成一个javascript方法，包含两个参数，__EVENTTARGET，__EVENTARGUMENT，这两个参数可以参看页码对应的内容，因为点击翻页的时候，会将页码信息传给这两个参数。

   三、__EVENTVALIDATION 这个也也应该是asp.net特有的东西

大家也不用太关心这三个东西都是干什么的，只需要注意自己写代码抓取页面的时候记得提交这三个元素就可以了。

    和第一种方式一样，肯定要通过循环的方式是去拼凑_dopostback的两个参数，只需要拼其中包含了页码信息的参数即可。这里有一个需要注意的地方，就是在每次通过Post提交请求下一页的时候，先应得到当前页的__VIEWSTATE 信息和__EVENTVALIDATION信息，所以分页数据的第一页可采用第一种方式得到页码内容然后，同时取出对应的__VIEWSTATE 信息和__EVENTVALIDATION信息，然后再做循环处理下一页面，然后每抓取完一个页面，再记录下__VIEWSTATE 信息和__EVENTVALIDATION信息，为下一个页面post提交数据使用

参考代码如下：

for (int i = 0; i < 1000; i++)
            {
                System.Net.WebClient WebClientObj = new System.Net.WebClient();
                System.Collections.Specialized.NameValueCollection PostVars = new System.Collections.Specialized.NameValueCollection();
                PostVars.Add("__VIEWSTATE", "此处是您需要提前得到的信息");
                PostVars.Add("__EVENTVALIDATION", "此处是您需要提前得到的信息");
                PostVars.Add("__EVENTTARGET", "此处是__dopostback方法对应的参数");
                PostVars.Add("__EVENTARGUMENT", "此处是__dopostback方法对应的参数");
                WebClientObj.Headers.Add("ContentType", "application/x-www-form-urlencoded");
                try
                {
                    byte[] byte1 = WebClientObj.UploadValues("http://www.xxxx.cn/messagelist.aspx", "POST", PostVars);
                    string ResponseStr = Encoding.UTF8.GetString(byte1); //得到当前页面对应的html 文本字符串
                    GetPostValue(ResponseStr);//得到当前页面对应的 __VIEWSTATE 等上面需要的信息，为抓取下一页面使用
                    SaveMessage(ResponseStr);//保存自己关心的内容到数据库中
                }
                catch (Exception ex)
                {
                    Console.WriteLine(ex.Message);
                }
            }

第三种方式是最麻烦的，也是最恶心的，这种页面在你翻页的过程中没有任何一个地方可以找到页码信息，这种方式费了我很大的力气，后来采用了一个比较狠的办法，用代码模拟手动翻页，这种方式应该可以处理任何形式的翻页数据，原理就是，用代码模拟人工点击翻页链接，用代码一页一页的翻页，然后一页一页的抓取。

/************************************************/

本博客内容如果是原著都会在标题后加上(原著)字样,未加者多数为转载.

/************************************************/
相关阅读:
jQuery上传插件Uploadify使用详解
 SQL之case when then用法
 myeclipse 上安装 Maven
ps 简介
 Linux 查看进程和删除进程
 EL表达<%@page isELIgnored="false"%>问题
 刷新本地的DNS缓存
 IDEA中 @override报错的处理步骤
 Caused by: org.springframework.core.NestedIOException: ASM ClassReader failed to parse class file
jsp中${param.user}不解析,原样输出。
原文地址：https://www.cnblogs.com/ghfsusan/p/1744820.html