scrapy处理需要跟进的url - 润新知

scrapy处理需要跟进的url
在做scrapy爬虫的时候经常会遇到需要跟进url的情况，网站a有许多url，但是我们需要跟进这些url，进一步获取这些url中的详细内容。

简单的说就是要先解析出所有需要的url，然后跟进这些url

那么现在来说说怎么做

scrapy中有个Request专门处理跟进的url
```
from scrapy.http import Request
```
在处理函数parse中进行跟进
```
    def parse(self, response):
        hxs = Selector(response)
        urls = hxs.xpath('//div[@class="li-info"]//h3//a/@href').extract()
        for url in urls:
            yield Request(url, callback=self.get_community)
```
callback中的函数才是重点，对跟进的url再次发送请求，
```
    def get_community(self, response):
        hxs = Selector(response)
        item = CommunityItem()
        yield item
```
这个函数用来进行对跟进的url进行解析，以便得到我们想要的数据

这里只是跟进了一次url，如果需要跟进多次url，可以多次使用Request，多个回调函数处理。
相关阅读:
web项目获取spring的applicationContext方式一
 idea关于tomcat中文乱码问题
 java面试题02
JDBC连接步骤（三）
JDBCAPI简介（二）
JDBC简介(一)
Maven（三）archetype
如何javaSwing关闭子窗口不关闭父窗口
 Java中Object转化为int类型
 java double转int
原文地址：https://www.cnblogs.com/lgh344902118/p/8565757.html

热门文章
day 7
day 6
day 5
day 4
day 3
day 1
day 2
oracle序列
 oralce修改表操作
 oracle基础学习网站

Copyright © 2020-2023 润新知