• webmagic最简单的列表页和详情页爬取


    1. 首先对于河北省采购网爬取数据,要有两个url,一个是列表页链接url_list,一个是文章页链接url_poost
    2. 由于爬取的页面较为简单,所以并不需要书写正则表达式来筛选文章页链接直接在url_list下获取并添加到请求中:page.addTargetRequests(page.getHtml().xpath("//div[@id="tablediv"]").links().all());
      其中,div[@id="tablediv"]对应爬取的网页中的包含文章列表链接的标签,如图:

    3.正常获取到后在通过xpath提取指定标签的内容:
            page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));
            如图:

            4.在初始运行的时候要首先加载一个网址链接
    public static void main(String[] args) {
        Spider.create(new GitHub()).addUrl("http://www.ccgp-hebei.gov.cn/province/cggg/zbgg/index.html")
                .run();
    }
    • 去标签:(/text())
                 page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));

  • 相关阅读:
    05、镜像操作
    04、docker安装、启动服务
    03、docker架构的介绍
    02、docker前身LXC
    01、dcoker介绍
    08、Zabbix分布式配置
    07、Zabbix日常问题汇总
    06、1.9 Zabbix监控MYSQL主从
    05、zabbix邮件报警
    04、zabbix自动发现
  • 原文地址:https://www.cnblogs.com/wf1647790534/p/9802769.html
Copyright © 2020-2023  润新知