一 简介
Scrapy基于事件驱动网络框架 Twisted 编写。因此,Scrapy基于并发性考虑由非阻塞(即异步)的实现。
官方文档 :https://docs.scrapy.org/en/latest/topics/architecture.html
最重要的是理解 Data flow。
别人的博客:http://kaito-kidd.com/2016/11/01/scrapy-code-analyze-architecture/
二 scrapy调优
参考博客:
http://www.shuang0420.com/2016/06/12/%E7%88%AC%E8%99%AB%E6%80%BB%E7%BB%93-%E4%BA%8C-scrapy/
https://segmentfault.com/a/1190000009321902
1 提高并发能力
1)增加并发
CONCURRENT_REQUESTS = 100
2)降低log级别
LOG_LEVEL = 'INFO'
https://www.cnblogs.com/shouzhong/p/7685822.html
3)禁止cookies
COOKIES_ENABLED = False
4)禁止重试
RETRY_ENABLED = False
5)减少下载超时
DOWNLOAD_TIMEOUT = 15
6)禁止重定向
REDIRECT_ENABLED = False
2 去重与增量抓取