• Scrapy学习-17-暂停和重启


    Scrapy爬虫暂停和重启

    在当前项目下新建一个用于存储中间过程变量的目录
      注意不同的spider不能共用一个目录
      同一个spider每次运行时也必须使用新的目录
      mkdir <spider_porject_path>/job_process
     
    带参数的命令启动方式
    1 scrapy crawl <spider_name> -s JOBDIR=job_process/001
    为什么不能在pycharm中使用能
      因为爬虫暂停接收的是Ctrl+C信号,而pychar暂停时没有使用Ctrl+C信号
     
    一次Ctrl+C
    暂停只能按一次,多次也会直接关闭,并且按下Ctrl+C后spider还是会继续运行,它需要完处理未完成的任务等善后工作
    重新启动
    scrapy crawl <spider_name> -s JOBDIR=job_process/001
    
    # 可以观察到两次请求的第一个页面都不一样
  • 相关阅读:
    [BZOJ 2821] 作诗
    [P1084] 疫情控制
    [BZOJ 2243] 染色
    Session
    Jinja2 及 render_template 的深度用法
    request机制
    三件套
    初识flask
    mysql大法
    liunx命令大全
  • 原文地址:https://www.cnblogs.com/cq146637/p/9077495.html
Copyright © 2020-2023  润新知