scrapy框架介绍及安装

什么是scrapy框架？

Python 2 / 3
升级pip版本：

pip install --upgrade pip

通过pip 安装 Scrapy 框架

pip install scrapy

Ubuntu 需要9.10或以上版本安装方式
Python 2 / 3
安装非Python的依赖

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

通过pip 安装 Scrapy 框架

sudo pip install scrapy

Scrapy构架解析：Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

相关阅读:
dragloader.js帮助你在页面原生滚动下实现Pull Request操作
移动Web单页应用开发实践——实现Pull to Request（上/下拉请求操作）
【转】移动Web单页应用开发实践——页面结构化
前端网址收集！Amazing！神奇！
前端代码书写规范
扫描工具分析
backtrack5渗透笔记
Sqlmap注入技巧集锦
nmap 高级扫描用法
小温谈数据库优化--数据设计篇(转)

原文地址：https://www.cnblogs.com/pythoner6833/p/9012292.html