Scrapy spider 主要方法

Spider 类是 Scrapy 中的主要核心类，它定义了爬取网站的规则。 Spider 是循环爬取，它的而爬取步骤是：

start_requests 方法用 start_urls 中的 URL 初始化 Request ，然后将请求返回结果 Response 作为参数传递给 parse 方法；
parse 是回调函数，它分析传递过来的 Response 的内容，从中提取出 Item 对象、 dict 、 Request 或者包含三者的可迭代数据，将 Request 传递给 Scrapy 继续进行下一轮的循环；
parse 使用 selector 分析 Response 提取向所需的数据。

所有的爬虫类都必须继承自 Spider 类。他提供了 start_requests 方法的默认实现和读取并请求 start_urls，然后根据返回结果调用 pase 方法。他的常用属性如下：

项目启动时会调用 start_requests 方法，然后从 start_urls 列表中依次获取 url 生成 Request ，然后调用回调方法 parse 。这个方法只被调用一次所以我们可以将它写为生成器。

parse 是 Scrapy 默认的回调方法，她负责处理 Response 并返回抓取的数据，获取返回需要跟进的 URL。

负责提取页面内容，Selector 是一套构建在 lxml 之上的选择器机制，主要通过 xpath 和 css 来提取数据。常用的方法如下：

tio：选择器可以嵌套使用，例如：

image = response.css("#image")
image_new = image.css("[href*='baidu.com']").extract()

上通过简单的描述讲解了 spider 的主要方法，这些方法是我们在开发中经常用到的。

相关阅读:
并发与并行
cgi fastcgi
阻塞和非阻塞，同步和异步
PHP常量
nginx入门（4）：FastCGI代理
fastjson实体转json顺序不一致问题
vue在一个方法执行完后再执行另一个方法
如何搭建一个vue项目(完整步骤)
什么是Node.js？
Android学习记录---在子线程中使用组件ui会报错

原文地址：https://www.cnblogs.com/gangzhucoll/p/12778114.html