self.setting = Settings({
'BOT_NAME': settings.BOT_NAME, #scrapy的项目名字
'SPIDER_MODULES': settings.SPIDER_MODULES,#Scrapy搜索spider的模块列表 默认: [xxx.spiders]
'NEWSPIDER_MODULE': settings.NEWSPIDER_MODULE, #使用 genspider 命令创建新spider的模块。默认: 'xxx.spiders'
'ROBOTSTXT_OBEY': settings.ROBOTSTXT_OBEY,#如果启用,Scrapy将会采用 robots.txt策略,常使用不遵循Flase
'DOWNLOADER_MIDDLEWARES': settings.DOWNLOADER_MIDDLEWARES,# 启用或禁用下载器中间件
'DUPEFILTER_CLASS': settings.DUPEFILTER_CLASS,#确保所有的爬虫通过Redis去重,使用Scrapy-Redis的去重组件,不再使用scrapy的去重组件
'SCHEDULER': settings.SCHEDULER,#启用Redis调度存储请求队列,使用Scrapy-Redis的调度器,不再使用scrapy的调度器
#不清除Redis队列、这样可以暂停/恢复 爬取,
#分别按(1)请求的优先级/(2)队列FIFO/(先进先出)(3)栈FILO 取出请求(先进后出)
'SCHEDULER_QUEUE_CLASS': settings.SCHEDULER_QUEUE_CLASS,
#不清除Redis队列、这样可以暂停/恢复 爬取,
# 允许暂停,redis请求记录不会丢失(重启爬虫不会重头爬取已爬过的页面)
'SCHEDULER_PERSIST': settings.SCHEDULER_PERSIST,
'REDIS_HOST': settings.REDIS_HOST, #指定连接到redis时使用的地址(可选)
'REDIS_PORT': settings.REDIS_PORT,#指定连接到redis时使用的端口(可选)
'REDIS_PARAMS': settings.REDIS_PARAMS,#指定连接到redis时使用的密码(可选)
'SENTRY_DSN': settings.SENTRY_DSN,
'TELNETCONSOLE_ENABLED': settings.TELNETCONSOLE_ENABLED,#禁用Telent控制台(默认启用)
'EXTENSIONS': settings.EXTENSIONS,#启用或禁用扩展程序
# 如果为True,则使用redis的'spop'进行操作。
# 如果需要避免起始网址列表出现重复,这个选项非常有用。开启此选项urls必须通过sadd添加,否则会出现类型错误。
'REDIS_START_URLS_AS_SET': settings.REDIS_START_URLS_AS_SET,
'DOWNLOAD_TIMEOUT': 30,
'LOG_LEVEL': settings.LOG_LEVEL,
#禁用cookies,有些站点会从cookies中判断是否为爬虫
'COOKIES_ENABLED': settings.COOKIES_ENABLED,
# 默认 Request 并发数:16
'CONCURRENT_REQUESTS': settings.CONCURRENT_REQUESTS
})
https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref