数据去重
- 生成指纹:利用hashlib的sha1,对request的请求体、请求url、请求方法进行加密,返回一个40位长度的16进制的字符串,称为指纹
fp = hashlib.sha1() fp.update(to_bytes(request.method)) fp.update(to_bytes(canonicalize_url(request.url))) fp.update(request.body or b'') return fp.hexdigest()
- 进队:(队列对requests对象去重,zset对指纹去重)
- 如果请求需要过滤,并且当前请求的指纹已经在指纹集合中存在了,就不能进入队列了
- 如果请求需要过滤,并且请求的指纹是一个新的指纹,进入队列
- 如果不需要过滤,直接进入队列
def enqueue_request(self, request): if not request.dont_filter and self.df.request_seen(request): self.df.log(request, self.spider) return False self.queue.push(request) return True
分布式爬虫
- 类继承RedisSpider、RedisCrawlSpider
- 使用redis_key,在redis数据库中存储start_urls的键名称
每台电脑从redis数据库中对应的redis_key名称中获取url,发起请求。