17.基于scrapy-redis两种形式的分布式爬虫
redis分布式部署
1.scrapy框架是否可以自己实现分布式?
- 不可以。原因有二。
其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器)
其二:多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。(多台机器无法共享同一个管道)
2.基于scrapy-redis组件的分布式爬虫
- scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道,我们可以直接使用并实现分布式数据爬取。
- 实现方式:
1.基于该组件的RedisSpider类
2.基于该组件的RedisCrawlSpider类
3.分布式实现流程:上述两种不同方式的分布式实现流程是统一的
- 3.1 下载scrapy-redis组件:pip install scrapy-redis
- 3.2 redis配置文件的配置:
3.3 修改爬虫文件中的相关代码:
- 将爬虫类的父类修改成基于RedisSpider或者RedisCrawlSpider。注意:如果原始爬虫文件是基于Spider的,则应该将父类修改成RedisSpider,如果原始爬虫文件是基于CrawlSpider的,则应该将其父类修改成RedisCrawlSpider。
- 注释或者删除start_urls列表,切加入redis_key属性,属性值为scrpy-redis组件中调度器队列的名称
3.4 在配置文件中进行相关配置,开启使用scrapy-redis组件中封装好的管道
3.5 在配置文件中进行相关配置,开启使用scrapy-redis组件中封装好的调度器
3.6 在配置文件中进行爬虫程序链接redis的配置:
3.7 开启redis服务器:redis-server 配置文件
3.8 开启redis客户端:redis-cli
3.9 运行爬虫文件:scrapy runspider SpiderFile
3.10 向调度器队列中扔入一个起始url(在redis客户端中操作):lpush redis_key属性值 起始url
tar命令详解
Ubuntu 16.04中安装Chromium浏览器
怎么打开unity tweak tool
WPS for linux不能使用中文输入法
Window7 驱动编程环境配置
Windows内核 字符串基本操作
Windows内核 语言选择注意点
Windows内核 内存管理基本概念
Windows内核 WDM驱动程序的基本结构和实例
- 最新文章
-
《MIT 6.828 Homework 1: boot xv6》解题报告
一个memset导致的血案
《The C Programming Language》学习笔记
《MIT 6.828 Lab 1 Exercise 12》实验报告
《MIT 6.828 Lab 1 Exercise 11》实验报告
《MIT 6.828 Lab 1 Exercise 10》实验报告
P4036 [JSOI2008]火星人(splay+hash+二分)
P5445 [APIO2019]路灯(树套树)
P3515 [POI2011]Lightning Conductor(决策单调性分治)
P3191 [HNOI2007]紧急疏散EVACUATE(费用流)