Python3 Scrapy爬虫框架-Downloader Middleware

Python3 Scrapy爬虫框架-Downloader Middleware
- Downloader Middleware：下载中间件，它处于Scrapy的Request和Response之间的处理模块
- Scrapy内置提供的下载中间件
1 # 字典格式数据，数值越小越优先被调用 2 DOWNLOADER_MIDDLEWARES_BASE 3 { 4 'scrapy.contrib.downloadermiddleware.robotstxt.RobotsTxtMiddleware': 100, 5 'scrapy.contrib.downloadermiddleware.httpauth.HttpAuthMiddleware': 300, 6 'scrapy.contrib.downloadermiddleware.downloadtimeout.DownloadTimeoutMiddleware': 350, 7 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': 400, 8 'scrapy.contrib.downloadermiddleware.retry.RetryMiddleware': 500, 9 'scrapy.contrib.downloadermiddleware.defaultheaders.DefaultHeadersMiddleware': 550, 10 'scrapy.contrib.downloadermiddleware.redirect.MetaRefreshMiddleware': 580, 11 'scrapy.contrib.downloadermiddleware.httpcompression.HttpCompressionMiddleware': 590, 12 'scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware': 600, 13 'scrapy.contrib.downloadermiddleware.cookies.CookiesMiddleware': 700, 14 'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 750, 15 'scrapy.contrib.downloadermiddleware.chunked.ChunkedTransferMiddleware': 830, 16 'scrapy.contrib.downloadermiddleware.stats.DownloaderStats': 850, 17 'scrapy.contrib.downloadermiddleware.httpcache.HttpCacheMiddleware': 900, 18 }
- Downloader Middleware的核心方法
- 新建scrapy项目
1 # 命令行操作 2 scrapy startproject Scrapy_DL # 新建项目Scrapy_DL 3 scrapy genspider httpbin httpbin.org # 进入项目，新建一个爬虫httpbin 4 scrapy crawl httpbin # 运行该爬虫
- 新建httpbin.py爬虫的编写
1 # httpbin.py 2 import scrapy 3 class HttpbinSpider(scrapy.Spider): 4 name = 'httpbin' 5 allowed_domains = ['httpbin.org'] 6 start_urls = ['http://httpbin.org/'] 7 8 def parse(self, response): 9 self.logger.debug(response.text) 10 self.logger.debug('Status Code：' + str(response.status))
- 自定义Downloader Middleware中间件的编写
1 # middlewares.py 2 # -*- coding: utf-8 -*- 3 import random 4 class RandomUserAgentMiddleware(): 5 "自定义的随机UserAgent中间件" 6 def __init__(self): 7 self.user_agents = [ 8 'Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)', 9 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.2 (KHTML, like Gecko) Chrome/22.0.1216.0 Safari/537.2', 10 'Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:15.0) Gecko/20100101 Firefox/15.0.1' 11 ] 12 13 def process_request(self, request, spider): 14 request.headers['User-Agent'] = random.choice(self.user_agents) 15 16 def process_response(self, request, response, spider): 17 response.status = 201 18 return response
- 配置文件对自定义Downloader Middleware进行配置
1 # settings.py 2 DOWNLOADER_MIDDLEWARES = { 3 'Scrapy_DL.middlewares.RandomUserAgentMiddleware': 543, 4 }
- https://github.com/Python3WebSpider/ScrapyDownloaderTest
- https://github.com/My-Sun-Shine/Python/tree/master/Python3/Scrapy_Learn/Scrapy_DL
相关阅读:
linux系统编程程序员必备
 postgresql查询优化之GIN（Generalized Inverted Index）索引与全文检索
 postgresql并行执行
 lightdb for postgresql日志详解
 PostgreSQL 使用数组类型
 postgresql wal文件误删恢复
 汉语词性标注集
 postgresql----JSON类型、函数及全文检索的支持
 postgresql等待事件之wait_event为空解析
 lightdb for pg查看锁
原文地址：https://www.cnblogs.com/My-Sun-Shine/p/13551159.html