webmagic最简单的列表页和详情页爬取

webmagic最简单的列表页和详情页爬取
1. 首先对于河北省采购网爬取数据，要有两个url，一个是列表页链接url_list，一个是文章页链接url_poost
2. 由于爬取的页面较为简单，所以并不需要书写正则表达式来筛选文章页链接直接在url_list下获取并添加到请求中：page.addTargetRequests(page.getHtml().xpath("//div[@id="tablediv"]").links().all());
其中，div[@id="tablediv"]对应爬取的网页中的包含文章列表链接的标签，如图：

3.正常获取到后在通过xpath提取指定标签的内容：

        page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));

        如图：

        4.在初始运行的时候要首先加载一个网址链接

public static void main(String[] args) {

    Spider.create(new GitHub()).addUrl("http://www.ccgp-hebei.gov.cn/province/cggg/zbgg/index.html")

            .run();

}
- 去标签：（/text()）
page.putField("title", page.getHtml().xpath("//span[@class='txt2']/text()"));
相关阅读:
ByteBuffer的slice()方法
 Kafka多个消费者的小例子
 设计模式之迭代器模式
 设计模式之责任链模式
 @ComponentScan的scopeResolver属性详解
 ES中的文档更新
 ElasticSearch学习：安装
 强、软、弱、虚四大引用示例
 20个有用的小片段
 spring mvc 执行流程
原文地址：https://www.cnblogs.com/wf1647790534/p/9802769.html