大三上寒假15天--第11天

今天继续学习webmagic爬虫

通过老师给的学习资料学习后，对webmagic爬虫基本有了了解，当时对site方法有点模糊，今天也终于搞明白了，感觉就像模拟了一个用户一样，对一个网站的框架还是不是很了解，所以还是不太理解，那些cookie，host，UserAgent，和header是什么，不过我以后会搞明白，今天准备进行编码实际练习，进行一个网站的爬取。

这是爬取前十页信件目录一样的网页，还不清楚怎么获取信件内容url，我会继续努力

package my.webmagic;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.FilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler;

public class Getgov implements PageProcessor{
    private Site site=Site.me().setRetrySleepTime(3).setSleepTime(100);
    /**
     * @param args
     */
    public Site getSite() {
        // TODO Auto-generated method stub
        return site;
    }

    public void process(Page page) {
        // TODO Auto-generated method stub
        page.putField("allhtml",page.getHtml().toString());
        String urlstr=null;
    for(int i=2;i<=10;i++){
            urlstr="http://www.beijing.gov.cn/so/s?qt=%E4%BF%A1%E4%BB%B6&tab=all&siteCode=1100000088&page="+i;
            page.addTargetRequest(urlstr);
    }
        }
    public static void main(String[] args) {
        Spider.create(new Getgov())
        .addUrl("http://www.beijing.gov.cn/so/s?qt=%E4%BF%A1%E4%BB%B6&tab=all&siteCode=1100000088&page=1")
        .addPipeline(new FilePipeline("./"))
        .setScheduler(new FileCacheQueueScheduler("./"))
        .thread(5)
        .run();
        System.out.println("完成");
  }
}

相关阅读:
Windows下查看dll被哪个进程调用
mfc笔记之string,wstring,CString
查看用户主目录
我看Windows 8 RT
C# 性能优化之斤斤计较篇一
曾经生活过的城市
大型.NET项目的目录、编译和版本管理实践四
大型.NET项目的目录、编译和版本管理实践五
大型.NET项目的目录、编译和版本管理实践二
大型.NET项目的目录、编译和版本管理实践一

原文地址：https://www.cnblogs.com/my---world/p/12297456.html