• webmagic最简单的列表页和详情页爬取


    1. 首先对于河北省采购网爬取数据,要有两个url,一个是列表页链接url_list,一个是文章页链接url_poost
    2. 由于爬取的页面较为简单,所以并不需要书写正则表达式来筛选文章页链接直接在url_list下获取并添加到请求中:page.addTargetRequests(page.getHtml().xpath("//div[@id="tablediv"]").links().all());
      其中,div[@id="tablediv"]对应爬取的网页中的包含文章列表链接的标签,如图:

    3.正常获取到后在通过xpath提取指定标签的内容:
            page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));
            如图:

            4.在初始运行的时候要首先加载一个网址链接
    public static void main(String[] args) {
        Spider.create(new GitHub()).addUrl("http://www.ccgp-hebei.gov.cn/province/cggg/zbgg/index.html")
                .run();
    }
    • 去标签:(/text())
                 page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));

  • 相关阅读:
    ByteBuffer的slice()方法
    Kafka多个消费者的小例子
    设计模式之迭代器模式
    设计模式之责任链模式
    @ComponentScan的scopeResolver属性详解
    ES中的文档更新
    ElasticSearch学习:安装
    强、软、弱、虚四大引用示例
    20个有用的小片段
    spring mvc 执行流程
  • 原文地址:https://www.cnblogs.com/wf1647790534/p/9802769.html
Copyright © 2020-2023  润新知