scrapy 启动

虚拟环境安装好了之后，scrapy 框架安装好了以后：

workon article_spider (项目名称)

scrapy startproject Article Spider 工程目录

cd 到工程目录

Scrapy genspider jobbole blog.jobbole.com 第一个文件名称要爬取网站的域名

启动一个工程的cmd： scrapy crawl jobbole

如果运行报 No module named “win32api”

要安装 pip install pypiwin32 这个包

settings

把

这样设置，否则遵循 robots.txt rules ,它将会不爬

如果是 xpath selector 对象想提取里面的内容，调用extract（）成一个列表，然后索引取出，但是列表没有值，索引取出就会报错，所以

extract_first 提取不到就返回None。比较好

相关阅读:
Redhat MysqlReport安装配置详解
asp.net中服务器端控件和客户端控件的交互问题
关于弹出对话框返回值的分析
关于父子窗口的参数传递（引用的高手的）
呵呵!刚刚申请!
Loadrunner教程
性能测试常见用语
如何删除电脑垃圾文件
内连接和外连接
酒桌上的规矩

原文地址：https://www.cnblogs.com/wuheng-123/p/9432231.html