Python爬虫：scrapy 的运行流程和各模块的作用

Python爬虫：scrapy 的运行流程和各模块的作用
scrapy的运行流程
- 爬虫 -> 起始URL封装Request -> 爬虫中间件 -> 引擎 -> 调度器(Scheduler): 缓存请求, 请求去重
- 调度器 -> 请求 -> 引擎 -> 经过下载器中间件 -> 下载器(发送请求, 获取响应数据, 封装Response)
- 下载器 - Response(响应) -> 经过下载器中间件 -> 引擎
- 引擎 - response -> 经过爬虫中间件 -> 爬虫 (解析数据, 提取URL封装请求, 提取数据)
- 爬虫:
  - 提取URL封装请求 -> 爬虫中间件 -> 引擎 -> 调度器
  - 提取数据 -> 引擎 -> 管道(Pipeline: 处理数据, 比如保存)
各个模块及作用:

爬虫模块:
1. 构建起始请求 2. 响应数据解析(1. 提取URL封装请求, 2. 提取数据) (需要自己写)
调度器模块:
1. 缓存请求 2. 请求去重 (已经实现了)
下载器模块:

　　发送请求, 获取响应数据,封装为Response(已经实现了)

管道模块:

　　处理数据, 比如保存(需要自己写)

引擎模块:

　　总指挥: 负责模块之间调度, 以及数据传递(已经实现了)

下载器中间件:

　　在引擎和下载器之间, 可以对请求和响应数据进行处理, 比如: 实现随机代理IP, 随机User-Agent

爬虫中间件:

　　爬虫和引擎之间, 可以对请求和响应数据进行处理, 比如过滤. (很少)
相关阅读:
Facebook发布神经蛋分离法，可从嘈杂环境中提取音视频
 前线观察 | AWS re:Invent 2018见闻实录
 SSO
8-5 Navicat工具与pymysql模块
 saltstack
nginx 集群介绍
 Docker 持久化存储
 Docker 多机网络
 《深入理解JAVA虚拟机》笔记1
jquery 学习日记之选择器
原文地址：https://www.cnblogs.com/mzfly/p/9953068.html

Python爬虫：scrapy 的运行流程和各模块的作用

scrapy的运行流程

各个模块及作用:

爬虫模块:

调度器模块:

下载器模块:

管道模块:

引擎模块:

下载器中间件:

爬虫中间件: