• scrapy settings值的含义


            self.setting = Settings({
                'BOT_NAME': settings.BOT_NAME, #scrapy的项目名字
                'SPIDER_MODULES': settings.SPIDER_MODULES,#Scrapy搜索spider的模块列表 默认: [xxx.spiders]
                'NEWSPIDER_MODULE': settings.NEWSPIDER_MODULE, #使用 genspider 命令创建新spider的模块。默认: 'xxx.spiders'
                'ROBOTSTXT_OBEY': settings.ROBOTSTXT_OBEY,#如果启用,Scrapy将会采用 robots.txt策略,常使用不遵循Flase
                'DOWNLOADER_MIDDLEWARES': settings.DOWNLOADER_MIDDLEWARES,# 启用或禁用下载器中间件
                'DUPEFILTER_CLASS': settings.DUPEFILTER_CLASS,#确保所有的爬虫通过Redis去重,使用Scrapy-Redis的去重组件,不再使用scrapy的去重组件
                'SCHEDULER': settings.SCHEDULER,#启用Redis调度存储请求队列,使用Scrapy-Redis的调度器,不再使用scrapy的调度器
                #不清除Redis队列、这样可以暂停/恢复 爬取,
                #分别按(1)请求的优先级/(2)队列FIFO/(先进先出)(3)栈FILO 取出请求(先进后出)
                'SCHEDULER_QUEUE_CLASS': settings.SCHEDULER_QUEUE_CLASS, 
                #不清除Redis队列、这样可以暂停/恢复 爬取,
                # 允许暂停,redis请求记录不会丢失(重启爬虫不会重头爬取已爬过的页面)           
                 'SCHEDULER_PERSIST': settings.SCHEDULER_PERSIST,
                'REDIS_HOST': settings.REDIS_HOST, #指定连接到redis时使用的地址(可选)
                'REDIS_PORT': settings.REDIS_PORT,#指定连接到redis时使用的端口(可选)
                'REDIS_PARAMS': settings.REDIS_PARAMS,#指定连接到redis时使用的密码(可选)
                'SENTRY_DSN': settings.SENTRY_DSN,
                'TELNETCONSOLE_ENABLED': settings.TELNETCONSOLE_ENABLED,#禁用Telent控制台(默认启用)
                'EXTENSIONS': settings.EXTENSIONS,#启用或禁用扩展程序
                # 如果为True,则使用redis的'spop'进行操作。
                # 如果需要避免起始网址列表出现重复,这个选项非常有用。开启此选项urls必须通过sadd添加,否则会出现类型错误。
                'REDIS_START_URLS_AS_SET': settings.REDIS_START_URLS_AS_SET,
                'DOWNLOAD_TIMEOUT': 30,
                'LOG_LEVEL': settings.LOG_LEVEL,
                #禁用cookies,有些站点会从cookies中判断是否为爬虫
                'COOKIES_ENABLED': settings.COOKIES_ENABLED,
                # 默认 Request 并发数:16
                'CONCURRENT_REQUESTS': settings.CONCURRENT_REQUESTS
            })
    

    https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref

  • 相关阅读:
    基于CodeSmith的三层架构代码模板
    全自动时代:JavaScript自动压缩插件
    NServiceBus最流行的开源企业服务总线 for .Net
    神奇的东西
    WebMatrix
    .Net TDD我用Machine.Specification
    JQuery Smart UI 简介(四) — 强大的适用性&存在问题【项目使用性介绍】
    JQuery Smart UI 简介(三)
    JQuery Smart UI 简介(二)
    基于WCF大型分布式系统的架构设计
  • 原文地址:https://www.cnblogs.com/c-x-a/p/13152500.html
Copyright © 2020-2023  润新知