【scrapy】使用方法概要（一）(转)

【scrapy】使用方法概要（一）(转)
【请初学者作为参考，不建议高手看这个浪费时间】

工作中经常会有这种需求，需要抓取互联网上的数据。笔者就经常遇到这种需求，一般情况下会临时写个抓取程序，但是每次遇到这种需求的时候，都几乎要重头写，特别是面临需要抓取大数量网页，并且被抓取网站有放抓取机制的时候，处理起来就会很麻烦。

无意中接触到了一个开源的抓取框架scrapy，按照introduction做了第一个dirbot爬虫，觉得很方便，就小小研究了一下，并在工作中用到过几次。

scrapy的文档是英文的，网上相关的说明很少，使用的过程中也遇到过很多问题，大部分都是在 stack overflow 上找到的解答，看来这个工具国外的同行们用的会更多些。鉴于国内关于scrapy的文章甚少，笔者希望能用自己的一些浅显的经验希望帮助大家更快对scrapy入门，作为笔者的第一篇分享文章，很难一气呵成完成，本文将分为几个部分，按照我自己的学习曲线作为组织，如果有错误，希望大家指正。

首先简要终结一下我认为scrapy最便利的几个地方：

1. 代码分工明确，一个抓取任务只需要在几个位置固定的地方增加代码，很容易就能写出基本的抓取功能。

2. 框架隐藏了很多抓取细节，如任务调度，重试机制，但并不是说框架不够灵活，例如框架支持以添加中间件的方式更改隐藏的细节，满足特殊需要，如使用代理ip池进行抓取，防止服务器封掉ip。

好啦，下面正式开始，从安装开始

笔者的运行环境是：linux python2.5

包管理使用的是：apt-get

安装流程：

1. 首先去官方网站下载源码

https://github.com/scrapy/scrapy/tarball/0.14

2. 安装scrapy以来的python库

sudo apt-get install python-twisted python-libxml2 python-pyopenssl python-simplejson

3. 安装
```
tar zxf Scrapy-X.X.X.tar.gz
```
```
cd Scrapy-X.X.X
```
```
sudo python setup.py install
```
```
4. 执行
```
```
scrapy  
```
```
如果出现
```
```
 
```
```
恭喜你，安装成功。
```
```
【未完待续~~~~~】
```
喜欢一起简单，实用的东西，拒绝复杂花哨，我不是GEEK.
相关阅读:
c语言中的增量与减量········不要太聪明
 存储器··············RAM,SRAM,EEPROM 等等
 对于 sizeof（char）的一些零碎······
C语言中float,double等类型,在内存中的结构
 同步异步存储器
 Linux的帧缓冲设备(Framebuffer)简介
 嵌入式 c 中结构体经常碰到_I、 __O 、__IO是什么意思？
新型的按键扫描程序
 数据结构
 jQuery（八）选择器与选择方法
原文地址：https://www.cnblogs.com/qq78292959/p/3372701.html