• Scrapy学习-15-降低被识别为爬虫的方法


    3种常见的方法

    1. 在settings中配置禁用cookies
    1 COOKIES_ENABLED = False

    2. scrapy限速处理,scrapy为我们提供了扩展模块,它能动态的限制下载速度
    # http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/autothrottle.html
    
    # 在settings中配置的参数
    
    AUTOTHROTTLE_ENABLED = True  # 启用AutoThrottle扩展
    
    AUTOTHROTTLE_START_DELAY = 5.0  # 初始下载延迟(单位:秒)
    
    AUTOTHROTTLE_MAX_DELAY = 60.0  # 在高延迟情况下最大的下载延迟(单位秒)
    
    AUTOTHROTTLE_DEBUG = True  # 起用AutoThrottle调试(debug)模式,展示每个接收到的response。 您可以通过此来查看限速参数是如何实时被调整的
    3. 在不同的spider中,配置不同的settings参数
    # 例如有些网站不需要cookie,有些网站必须使用cookie
    
    # 在我们的spider类中,配置我们的类变量custom_settings = {}
    
    class TestSpider(scrapy.Spider):
        
        custom_settings = {
            "COOKIES_ENABLED": True,
            "AUTOTHROTTLE_ENABLED": True,
        }
  • 相关阅读:
    6 完全平方数相关
    5 三位数,每个位置不同
    Neo4j Admin Import 导入多个node和relationship
    Rust所有权
    Rust 多态
    Rust 泛型
    Rust trait
    Rust模块化
    Spring Cloud(Dalston.SR1)
    git 速度慢问题解决
  • 原文地址:https://www.cnblogs.com/cq146637/p/9072817.html
Copyright © 2020-2023  润新知