• Python3 PySpider爬虫框架-命令行


    • pyspider命令行
     1 pyspider all # 启动pyspider
     2 # pyspider [OPTIONS] COMMAND [ARGS] 
     3 # 可以查看https://www.cntofu.com/book/156/command.md
     4 """
     5 TEXT是需要指定的文本字符串,FILENAME文件名,INTEGER数字
     6 Options:
     7   -c, --config FILENAME    指定配置文件名称
     8   --logging-config TEXT    日志配置文件名称,默认: pyspider/pyspider/logging.conf
     9   --debug                  开启调试模式
    10   --queue-maxsize INTEGER  队列的最大长度
    11   --taskdb TEXT            taskdb的数据库连接字符串, default: sqlite
    12   --projectdb TEXT         projectdb的数据库连接字符串, default: sqlite
    13   --resultdb TEXT          resultdb的数据库连接字符串, default: sqlite
    14   --message-queue TEXT     消息队列连接炙甘草default: multiprocessing.Queue
    15   --amqp-url TEXT          [deprecated] amqp url for rabbitmq. please use --message-queue instead.
    16   --beanstalk TEXT         [deprecated] beanstalk config for beanstalk queue. please use --message-queue instead.
    17   --phantomjs-proxy TEXT   phantomjs使用的代理,ip:port的兴衰
    18   --data-path TEXT         数据库存放的路径
    19   --version                pyspider的版本
    20   --help                   显示帮助信息
    21 """
    22 # 配置文件模板 pyspider.json
    23 pyspider -c pyspider.json all
    24 {
    25     "taskdb": "mysql+taskdb://username:password@host:port/taskdb",
    26     "projectdb": "mysql+projectdb://username:password@host:port/projectdb",
    27     "resultdb": "mysql+resultdb://username:password@host:port/resultdb",
    28     "message_queue": "amqp://username:password@host:port/%2F",
    29     "webui": {
    30         "username": "some_name",
    31         "password": "some_passwd",
    32         "need-auth": true
    33         }
    34 }
    • pyspider运行processor命令
    1 pyspider processor [OPTIONS]
    2 """
    3  Options:
    4    --processor-cls TEXT  Processor使用的类
    5    --help                显示帮助信息
    6 """
    • pyspider运行webui命令
     1 pyspider webui [OPTIONS]
     2 """
     3 Options:
     4   --host TEXT            运行地址
     5   --port INTEGER         运行端口
     6   --cdn TEXT             js/css的cdn服务器
     7   --scheduler-rpc TEXT   scheduler的xmlrpc路径
     8   --fetcher-rpc TEXT     fetcher的xmlrpc路径
     9   --max-rate FLOAT       每个项目最大的rate值
    10   --max-burst FLOAT      每个项目最大的burst值
    11   --username TEXT        Auth验证的用户名
    12   --password TEXT        Auth验证的密码
    13   --need-auth            是否需要验证
    14   --webui-instance TEXT  运行时使用的Flash应用
    15   --help                 显示帮助信息
    16 """
    • pyspider运行scheduler命令
     1 pyspider scheduler [OPTIONS]
     2 """
     3 Options:
     4   --xmlrpc / --no-xmlrpc
     5   --xmlrpc-host TEXT
     6   --xmlrpc-port INTEGER
     7   --inqueue-limit INTEGER  任务队列的最大程度,如果满了则新的任务会被忽略
     8   --delete-time INTEGER    设置为delete标记之前的删除时间
     9   --active-tasks INTEGER   当前活跃的任务数量配置
    10   --loop-limit INTEGER     单轮最多调度的任务数量
    11   --scheduler-cls TEXT     scheduler使用的类
    12   --help                   显示帮助信息
    13 """
    • pyspider运行fetcher命令
     1 pyspider fetcher [OPTIONS]
     2 """
     3 Options:
     4   --xmlrpc / --no-xmlrpc
     5   --xmlrpc-host TEXT
     6   --xmlrpc-port INTEGER
     7   --poolsize INTEGER      同时请求的个数
     8   --proxy TEXT            使用的代理
     9   --user-agent TEXT       使用的User-Agent
    10   --timeout TEXT          超时时间
    11   --fetcher-cls TEXT      Fetcher使用的类
    12   --help                  显示帮助信息
    13 """
  • 相关阅读:
    IIS日志字段详解
    Linux CPU监控指标
    PMP 质量管理新7张图
    PMP 质量管理7张图 很形象
    【MVC model 验证失效 】【Unexpected token u in JSON at position 0】【jquery-plugin-validation】
    VS 忽略文件 Git 向远程添加问题
    .Net Core 知识了解:一跨平台的奥秘
    ios 时间解析 差8个小时
    百度定位转腾讯定位
    需求评审会议分析
  • 原文地址:https://www.cnblogs.com/My-Sun-Shine/p/13551041.html
Copyright © 2020-2023  润新知