scrapyd 参考（https://www.jianshu.com/p/2a189127901a）

scrapyd 参考（https://www.jianshu.com/p/2a189127901a）
一 Scrapyd简介
Scrapyd 是一个用来部署和运行 Scrapy 项目的应用，由 Scrapy 的开发者开发。其可以通过一个简单的 Json API 来部署（上传）或者控制你的项目。

Scrapyd 可以用来管理多个项目，并且每个项目还可以上传多个版本，不过只有最新的版本会被使用。

在安装并开启 Scrapyd 之后，它将会挂起一个服务来监听运行爬虫的请求，并且根据请求为每一个爬虫启用一个进程来运行。Scrapyd 同样支持同时运行多个进程，进程的数量由max_proc 和 max_proc_per_cpu 选项来限制。

二 Scrapyd 安装部署

通常来说，使用 pip 安装 Scrapyd 即可：
$ pip install scrapyd
部署 scrapy
rsync -avz scrapyd crawler_server1:/data --exclude '*logs' --exclude '*.pyc' --exclude '*.db' --exclude '*env' --exclude '*eggs' --exclude '*.pid' rsync -avz scrapyd crawler_server2:/data --exclude '*logs' --exclude '*.pyc' --exclude '*.db' --exclude '*env' --exclude '*eggs' pip install -r requirements.txt
安装成功后使用以下命令即可以开启 Scrapyd 服务：
使用虚拟环境运行 virtualenv -p /usr/bin/python3.6 env source env/bin/activate python scripts/scrapyd_run.py
三 scrapyd 配置文件
Scrapyd 将会在以下地址搜索配置文件，在解析的过程中更高的配置文件拥有更高的优先级：

/etc/scrapyd/scrapyd.conf (Unix)

c:scrapydscrapyd.conf (Windows)

/etc/scrapyd/conf.d/* (in alphabetical order, Unix)

scrapyd.conf

~/.scrapyd.conf (users home directory)

配置文件中支持配置以下选项：

　　

http_port

Scrapyd 的API监听的端口，默认为6800。

bind_address

网页和Json服务监听的IP地址，默认为 127.0.0.1。

max_proc

同时启动的最大Scrapy进程数，如果没有设置或者设置为0，那么将会使用当前cpu可用的核数乘以 max_proc_per_cpu 的值。默认为0。

max_proc_per_cpu

每个cpu能同时启动的最大Scrapy进程数。默认为4。

debug

是否开启debug模式，默认为off。开启之后，如果在调用Scrapy的Json API的时候出错，则会返回详细的traceback信息。

eggs_dir

项目的eggs文件存储的目录。

dbs_dir

项目存储数据库的目录，也包括爬虫队列。

logs_dir

存储Scrapy日志的目录。如果不希望存储日志，那么需要设置成如下所示：

logs_dir =

items_dir

存储items的目录，一般来说不需要设置这个选项，因为抓取下来的数据都会存到数据库中。如果设置这个选项，那么将会覆盖Scrapy的FEED_URL设置，将抓取下来的items保存到指定目录。

jobs_to_keep

每个spider保留多少个完成的job，默认为5。这更多指的是item和log。

finished_to_keep

启动器中保留的已完成进程的数量，默认为100。

poll_interval

轮询队列的间隔，以秒为单位，默认值为5，可以为浮点数。

runner

用来启动子进程的启动器，可以自定义启动的模块。

node_name

每个节点的节点名称，默认为 ${socket.gethostname()}。

以下是一个默认的配置文件的例子：

[scrapyd] eggs_dir = eggs logs_dir = logs items_dir = jobs_to_keep = 5 dbs_dir = dbs max_proc = 0 max_proc_per_cpu = 4 finished_to_keep = 100 poll_interval = 5.0 bind_address = 127.0.0.1 http_port = 6800 debug = off runner = scrapyd.runner application = scrapyd.app.application launcher = scrapyd.launcher.Launcher webroot = scrapyd.website.Root [services] schedule.json = scrapyd.webservice.Schedule cancel.json = scrapyd.webservice.Cancel addversion.json = scrapyd.webservice.AddVersion listprojects.json = scrapyd.webservice.ListProjects listversions.json = scrapyd.webservice.ListVersions listspiders.json = scrapyd.webservice.ListSpiders delproject.json = scrapyd.webservice.DeleteProject delversion.json = scrapyd.webservice.DeleteVersion listjobs.json = scrapyd.webservice.ListJobs daemonstatus.json = scrapyd.webservice.DaemonStatus

四配置访问认证

　　由于 Scrapyd 本身不提供访问的认证，所以接口都是暴露在公共网络中的，需要使用 Nginx 配置反向代理等方法来设置访问认证。

五 API

　　在开启了 scrapyd 服务之后，就可以通过 Scrapyd 提供的 API 接口来操作你的 Scrapy 项目了。

　　daemonstatus.json

　　用来检查服务器的负载状态。支持的请求方法：GET。

　　request例子：

curl http://localhost:6800/daemonstatus.json

　　response例子：

{ "status": "ok", "running": "0", "pending": "0", "finished": "0", "node_name": "node-name" }

　　addversion.json

　　给项目增加一个版本，如果项目不存在的话那么就创建一个项目。这个接口主要被用来上传项目或者更新项目版本。支持的请求方法：POST。

　　参数：

project (string, required) - 项目的名称

version (string, required) - 项目的版本

egg (file, required) - 一个包含项目代码的 egg 文件

　　request例子：

$ curl http://localhost:6800/addversion.json -F project=myproject -F version=r23 -F egg=@myproject.egg

　　相应例子：

{"status": "ok", "spiders": 3}

　　schedule.json

　　调度运行一个爬虫（也成为 job ），并返回一个 jobid。支持的请求方法：POST。

　　参数：

project (string, required) - 项目的名称

spider (string, required) - 爬虫的名称

setting (string, optional) - 爬虫运行时要用到的Scrapy设置

jobid (string, optional) - 用来作为标识的jobid，会覆盖掉默认生成的UUID

_version (string, optional) - 使用的项目版本

任何其他的参数将会传递作为爬虫的参数

　　request例子：

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider

　　response例子：

{"status": "ok", "jobid": "6487ec79947edab326d6db28a2d86511e8247444"}

　　以下是传递 spider 参数和 setting 参数的例子：

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d arg1=val1

　　cancel.json

　　取消一个 job 的运行，如果这个 job 处于等待的状态，那么将会被移除，如果这个 job 正在运行，那么它将会被终止。支持的请求方法：POST。

　　参数：

project (string, required) - 项目的名称

job (string, required) - job的id

　　request例子：

$ curl http://localhost:6800/cancel.json -d project=myproject -d job=6487ec79947edab326d6db28a2d86511e8247444

　　response例子：

{"status": "ok", "prevstate": "running"}

　　listprojects.json

　　获取上传到服务器的项目列表。支持请求方法：GET，无参数。

　　request例子：

$ curl http://localhost:6800/listprojects.json

　　response例子：

{"status": "ok", "projects": ["myproject", "otherproject"]}

　　listversions.json

　　获取某个或某些项目的版本列表。返回的版本将会按顺序排列，最后的那个版本是当前正在使用的版本。支持请求参数：GET。

　　参数：

project (string, required) - 项目名称

　　request例子：

$ curl http://localhost:6800/listversions.json?project=myproject

　　response例子：

{"status": "ok", "versions": ["r99", "r156"]}

　　listspiders.json

　　默认获取某个项目最新版本中的spider列表。支持的请求方法：GET。

　　参数：

project (string, required) - 项目的名称

_version (string, optional) - 检查的项目版本

　　request例子：

$ curl http://localhost:6800/listspiders.json?project=myproject

　　response例子：

{"status": "ok", "spiders": ["spider1", "spider2", "spider3"]}

　　listjobs.json

　　获取某个项目正在等待、运行或者运行完毕的job列表。支持的请求类型：GET。

　　参数：

project (string, required) - 项目名称

　　request例子：

$ curl http://localhost:6800/listjobs.json?project=myproject

　　response例子：

{"status": "ok", "pending": [{"id": "78391cc0fcaf11e1b0090800272a6d06", "spider": "spider1"}], "running": [{"id": "422e608f9f28cef127b3d5ef93fe9399", "spider": "spider2", "start_time": "2012-09-12 10:14:03.594664"}], "finished": [{"id": "2f16646cfcaf11e1b0090800272a6d06", "spider": "spider3", "start_time": "2012-09-12 10:14:03.594664", "end_time": "2012-09-12 10:24:03.594664"}]}

　　delversion.json

　　删除某个项目的某个版本，如果这个项目不再有能用的版本，那么项目也会被删除。支持的请求方法：POST。

　　参数：

project (string, required) - 项目名称

version (string, required) - 要删除的项目版本

　　request例子：

$ curl http://localhost:6800/delversion.json -d project=myproject -d version=r99

　　

　　response例子：　　

{"status": "ok"}

　　delproject.json

　　删除指定项目。支持请求方法：POST。

　　参数：

project (string, required) - 项目名称

　　request例子：

$ curl http://localhost:6800/delproject.json -d project=myproject

　　response例子：

{"status": "ok"}

　　
相关阅读:
lua -- encode and decode
lua二进制操作函数
 linux C++多线程使用pthread_cond 条件变量
 linux c 多线程编程--互斥锁与条件变量
 linux C--多线程基本概念及API函数
 linux C多线程编程
 2.5 linux C 进程与多线程入门--（5）使用互斥量进行同步
 linux C多线程编程入门（基本API及多线程的同步与互斥）
2.4 linux C 进程与多线程入门--（4）简单多线程程序
 2.3 linux C 进程与多线程入门--（3）信号
原文地址：https://www.cnblogs.com/wzbk/p/10332997.html

scrapyd 参考（https://www.jianshu.com/p/2a189127901a）

一 Scrapyd简介

二 Scrapyd 安装部署

三 scrapyd 配置文件

四 配置访问认证

五 API

daemonstatus.json

addversion.json

schedule.json

cancel.json

listprojects.json

listversions.json

listspiders.json

listjobs.json

delversion.json

delproject.json

四配置访问认证

　　daemonstatus.json

　　addversion.json

　　schedule.json

　　cancel.json

　　listprojects.json

　　listversions.json

　　listspiders.json

　　listjobs.json

　　delversion.json

　　delproject.json