scrapy-redis

scrapy_redis的大概思路：将爬取的url通过 hashlin.sha1生成唯一的指纹，持久化存入redis，之后的url判断是否已经存在，达到去重的效果

下载scrapy-redis

 git clone https://github.com/rmax/scrapy-redis.git

settings

PIDER_MODULES = ['example.spiders']
NEWSPIDER_MODULE = 'example.spiders'

USER_AGENT = 'scrapy-redis (+https://github.com/rolando/scrapy-redis)'

# 指定RFPDupeFilter方法给request对象去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 指定Scheduler队列
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 队列中的内容是否持久化保存，False在redis关闭的时候清空redis
SCHEDULER_PERSIST = True


ITEM_PIPELINES = {
    'example.pipelines.ExamplePipeline': 300,
    # scrapy_redis实现 items保存到redis的pipline
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

# 指定redis地址
# REDIS_URl = 'redis://192.168.1.103:6379'
# 另一种形式 指定redis地址
REDIS_HOST = 'localhost'
REDIS_PORT = '6379'

相关阅读:
增加samba用户提示Failed to add entry for user
二叉树
excel技巧
mongodb导入json文件
mongodb导出数据csv格式
mongoexport导出csv中文乱码
左连接，结果大于左面的表验证解释
plsql 用法和技巧
对javaNI和NIO理解
TinyMCE4.x整合教程-Xproer.WordPaster

原文地址：https://www.cnblogs.com/tangpg/p/10784559.html