python爬虫---scrapy的基本语法

1.创建爬虫：

　　scrapy genspider爬虫名域名

　　注意：爬虫的名字不能和项目名相同

2.　　scrapy list --展示爬虫应用列表

　　　scrapy crawl爬虫应用名称 ---运行单独爬虫应用

　　　使用scrapy框架爬取糗事百科段子：

　　　　　　使用命令创建一个爬虫：

　　　　　　　scrapy gensipder qsbk ''qiushibaike.com''

　　　　　　创建一个名字叫做qsbk的爬虫，并且能爬取的网页只会限制在qiushibaike.com这个域名下。

3.　　name:这个爬虫的名字，名字必须是唯一的。

　　　allow_domains:允许的域名。爬虫只会爬取这个域名下的网页，其他不是这个域名的网页会被自动忽略。

　　　　start_urls:爬虫从这个变量中的url开始。

　　　　parse：引擎会吧下载器下载回来的数据扔给爬虫解析，爬虫在吧数据传给这个parse方法。这个是个固定的写法。这个方法的作用有两个，第一个是提取想要的数据。第二个是生产下一个请求的url.

相关阅读:
创建进程
进程
操作系统历史
socket
网络基础
常用模块二：hashlib、configparser、logging
常见正则匹配
类中的内置方法（魔法方法、双下方法）
反射、isinstance和issubclass
封装、继承、多态

原文地址：https://www.cnblogs.com/zgl19991001/p/10724698.html