scrapy基本知识

scrapy基本知识
1. Scrapy使用了Twisted异步网络库来处理网络通讯，整体架构：
- Scrapy爬虫框架主要由5个部分组成，分别是：Scrapy Engine（Scrapy引擎），Scheduler（调度器），Downloader（下载器），Spiders（蜘蛛），Item Pipeline（项目管道）。爬取过程是Scrapy引擎发送请求，之后调度器把初始URL交给下载器，然后下载器向服务器发送服务请求，得到响应后将下载的网页内容交与蜘蛛来处理，尔后蜘蛛会对网页进行详细的解析。
- 蜘蛛分析的结果有两种：一种是得到新的URL，之后再次请求调度器，开始进行新一轮的爬取，不断的重复上述过程；另一种是得到所需的数据，之后会转交给项目管道继续处理。项目管道负责数据的清洗、验证、过滤、去重和存储等后期处理，最后由Pipeline输出到文件中，或者存入数据库等。
scrapy startproject XXX可以产生一个项目，其中：

　　items.py是定义储对象的文件，决定爬取哪些项目；middlewares.py文件是中间件，一般不用进行修改，主要负责相关组件之间的请求与响应；pipelines.py是管道文件，决定爬取后的数据如何进行处理和存储；settings.py是项目的设置文件，设置项目管道数据的处理方法、爬虫频率、表名等；spiders文件夹中放置的是爬虫主体文件（用于实现爬虫逻辑）和一个__init__.py空文件。

python classmethod是用来指定一个类的方法为类方法，可以基于类直接调用方法class.get()，没有此参数指定的类的方法为实例方法。

2. 对spider来说，爬取的循环类似下文:

　　(1) 以初始的URL初始化Request，并设置回调函数。当该request下载完毕并返回时，将生成response，并作为参数传给该回调函数。

　　(2) spider中初始的request是通过调用 start_requests() 来获取的。 start_requests() 读取 start_urls 中的URL，并以 parse 为回调函数生成 Request 。

　　(3) 在回调函数内分析返回的(网页)内容，返回 Item 对象或者 Request 或者一个包括二者的可迭代容器。返回的Request对象之后会经过Scrapy处理，下载相应的内容，并调用设置的callback函数(函数可相同)。

　　(4) 在回调函数内，可以使用选择器(Selectors) (您也可以使用BeautifulSoup, lxml 或者您想用的任何解析器) 来分析网页内容，并根据分析的数据生成item。

　　(5) 最后，由spider返回的item将被存到数据库(由某些 Item Pipeline 处理)或使用 Feed exports 存入到文件中。

3. 选择器

　　Xpath是一门用来在XML文件中选择节点的语言，也可以用在HTML上。Scrapy选择器构建于 lxml库之上.

　　response 是 HtmlResponse 或 XmlResponse 的一个对象，将被用来选择和提取数据。如response.xpath("//div[@class='book-mid-info']")

　　// 表示相对路径 @后面接属性

4. Items

　　爬取的主要目标就是从非结构性的数据源提取结构性数据，例如网页。 Scrapy提供 Item 类来满足这样的需求。
```
class Product(scrapy.Item):
    name = scrapy.Field()
    price = scrapy.Field()
    stock = scrapy.Field()
在spider调用item实例，予以赋值
　　
```
　　item pipeline的一些典型应用：
- 清理HTML数据
- 验证爬取的数据(检查item包含某些字段)
- 查重(并丢弃)
- 将爬取结果保存到数据库中
正则表达式：re.search()并不要求必须从字符串的开头进行匹配，也就是说，正则表达式可以是字符串的一部分。

5. Rule

rules = (

Rule(LinkExtractor(allow=r'info/d+'), callback='parse_item'),

)

1.rules内规定了对响应中url的爬取规则，爬取得到的url会被再次进行请求，并根据callback函数和follow属性的设置进行解析或跟进。
这里强调两点：一是会对所有返回的response进行url提取，包括首次url请求得来的response；二是rules列表中规定的所有Rule都会被执行。

2.allow参数没有必要写出要提取的url完整的正则表达式，部分即可，只要能够区别开来。且最重要的是，即使原网页中写的是相对url，通过LinkExtractor这个类也可以提取中绝对的url。

link = LinkExtractor(allow='d{6}.html',restrict_xpaths='//div//table//a')

links = link.extract_links(response)

6. 异步加载爬虫

　　之前爬取的网站，可以用直接利用Xpath去提取数据，因为所有的数据在一次请求后会全部被加载出来。然而，现在有一些网站使用了异步加载的技术，就是让一部分网页信息先加载出来，然后剩下的东西在满足某种条件下才会被加载，这样做的好处是可以提高网页的加载速度。

7. 正则表达式

　　s　　匹配任何空白字符，包括空格、制表符、换页符等等

　　S　　匹配任何非空白字符。

　　$　　匹配结尾位置

　　*　　匹配前面字符0或多次

　　+　　匹配前面字符1或多次

　　？　　匹配前面字符0或1次

　　{m,n}　　至少匹配m次至多n次

　　d　　数字

　　w　　字母，数字，下划线

　　W　　非字母数字下划线
相关阅读:
jvm调优监控工具jps、jstack、jmap、jhat、jstat使用详解
 JS中Date和时间戳转换
 HashMap源码窥探
 HashMap,TreeMap,LinkedHashMap的默认排序
 hibernate-delete(Entity)的顺序问题
 macOS通过ssh使用PEM登录
 SpringMvc-<context:component-scan>使用说明
 macOS安装RZ,SZ
CentOS6.8下yum安装Nginx
第K人||约瑟夫环（链表）
原文地址：https://www.cnblogs.com/kongrui/p/13193790.html