python3下scrapy爬虫(第十三卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之配置）

python3下scrapy爬虫(第十三卷：scrapy+scrapy_redis+scrapyd打造分布式爬虫之配置）

之前我们的爬虫都是单机爬取，也是单机维护REQUEST队列，

看一下单机的流程图：

一台主机控制一个队列，现在我要把它放在多机执行，会产生一个事情就是做重复的爬取，毫无意义，所以分布式爬虫的第一个难点出来了，共享请求队列，看一下架构：

三台主机由一个队列控制，意味着还需要一个主机来控制队列，我们一般来用REDIS来控制队列，形成如下分布式架构

从机抓取，存储主机负责控制队列

SCRAPY_REDIS这个插件解决了SCRAPY不能做分布式爬取的问题

它内部的CONNECTION.PY作为连接MASTER的REDIS

DUPEFILTER.PY用作去重，添加指纹，以及判断功能，现在整个框架了解了，现在该做执行了
相关阅读:
石子合并之一
 最长公共子序列
 最长上升子序列
 剑圣的逃跑
 方格取数
 数字三角形
 Omkar and Last Class of Math
IDEA中对代码进行测试
 Spark(一)【spark-3.0安装和入门】
HTTP请求 Java API
原文地址：https://www.cnblogs.com/woshiruge/p/8456683.html