2017.08.07 python爬虫实战之使用代理爬取糗事百科

1.目标分析：

2.创建编辑Scrapy爬虫：

（1）执行命令：

（2）编辑items.py文件：

（3）Scrapy项目中间件----添加Headers：

在Scrapy项目中，掌管proxy的中间件是scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware，直接修改这个文件不是不可以，不过为了一个项目就去修改整个环境变量，不值得；

所以，我们自己写一个中间件，让它运行，然后将Scrapy默认的中间件关闭掉就可以了；

#! /usr/bin/env python
# -*- coding: utf-8 -*-

from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware

class CustomUserAgent(UserAgentMiddleware):
    def process_request(self, request, spider):
        ua="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML,like Gecko) Chrome/19.0.1061.1 Safari/536.3"

        request.headers.setdefault('User-Agent',ua)

（4）修改settings.py文件，将系统默认的中间件scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware关闭，用自己创建的中间件qiushi.middlewares.customMiddlewares.CustomUserAgent代替：

（5）编辑糗事Spider.py文件，获取所需数据：

subSelector=response.xpath('//div[@class="article block untagged mb15 typs_long"]')

subSelector.xpath('.//div[@class="content"]/span/text()').extract()[0] 笑话内容

subSelector.xpath('./div[@class="stats"]/span/i/text()').extract()[0] 好笑次数

subSelector.xpath('.//h2/text()').extract()[0] 发布者名字

subSelector.xpath('//div[@class="thumb"]/a/img/@src').extract()[0] 笑话图片

subSelector.xpath('//div[@class="stats"]/span/a/i/text()').extract()[0] 评论次数

（6）编辑qiushiSpider.py文件：

# -*- coding: utf-8 -*-
import scrapy
from qiushi.items import QiushiItem

class QiushispiderSpider(scrapy.Spider):
    name = 'qiushiSpider'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['http://qiushibaike.com/hot']

    def parse(self, response):
        subSelector=response.xpath('.//div[@class="article block untagged mb15 typs_hot" or @class="article block untagged mb15 typs_old" ]')
        items=[ ]
        for sub in subSelector:
            item=QiushiItem()
            item['author']=sub.xpath('.//h2/text()').extract()[0]
            item['content']=sub.xpath('.//div[@class="content"]/span/text()').extract()[0]

            item['img']=sub.xpath('//div[@class="thumb"]/a/img/@src').extract()

            item['funNum']=sub.xpath('./div[@class="stats"]/span/i/text()').extract()[0]
            item['talkNum']=sub.xpath('//div[@class="stats"]/span/a/i/text()').extract()[0]
            items.append(item)
        return items

注意这个图片的路径：是//div[@class="thumb"]/a/img/@src，不是.//div[@class="thumb"]/a/img/@src
而且是extract()，不是extract()[0]，加上[0]意味着只有第一张图片的URL被爬取下来

（7）编辑pipelines.py文件，保存图片和数据：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
import time
import urllib2
import os


class QiushiPipeline(object):
    def process_item(self, item, spider):
        today=time.strftime('%Y%m%d',time.localtime())
        fileName=today+'qiushi.txt'
        imgDir='IMG'

        if os.path.isdir(imgDir):
            pass
        else:
            os.mkdir(imgDir)

        with open(fileName,'a') as fp:
            fp.write('-'*50+'
'+'-'*50+'
')
            fp.write("author:	%s 
" %(item['author'].encode('utf8')))
            fp.write("content:	%s 
" %(item['content'].encode('utf8')))
           
            for i in item['img']:
                try:
                    imgUrl=i

                except IndexError:
                    pass

                imgName=os.path.basename(imgUrl)
                print("我是imgName"+imgName)
                fp.write("img:	 %s 
" %(imgName))
                imgPathName=imgDir+os.sep+imgName
                print("我是imgPathName"+imgPathName)
                with open(imgPathName,'wb') as fpi:
                    response=urllib2.urlopen("http:"+imgUrl)
                    fpi.write(response.read())
            fp.write("funNum:%s 	  talkNum:%s 	" %(item['funNum'],item['talkNum']))
            fp.write('-'*50+'
'+'-'*50+'
'*10)
        return item

3.在qiushi项目的任意目录下，运行命令：scrapy crawl qiushiSpider

爬取结果：

4.Scrapy项目中间件----------添加Proxy

　　Scrapy默认环境下，proxy的设置是由中间件scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware控制的

我们这里还是自己定义一个中间件取代这个环境变量就好。直接在middleware.customMiddlewares（自己建的模块和文件）中添加一个类就好。

接下来在修改Settings.py文件就好，将新添加的中间件CustomProxy添加到DOWNLOADER_MIDDLEWARES中去，这里与之前的CustomUserAgent不同的是：

CustomUserAgent需要禁止系统的UserAgentMiddleware，而CustomProxy则需要在系统的HttpProxyMiddle之前执行：

再次执行命令：scrapy crawl qiushiSpider

可以看到两个中间件都启动运行了，如果proxy不行，多试几个代理服务器看看就好

相关阅读:
Ext5实现树形下拉框ComboBoxTree
SQL常用语句整理
 第九篇——鼓掌，学籍管理系统的相关两篇报告终于写完啦！
第八篇——源程序版本管理软件及项目管理软件
 第七篇——Mobile Apps，软件的曙光。
第六篇——初尝Python，意犹未尽
 第五篇——C++实现四则运算
 第四篇——是什么让我们勇往直前？兴趣使然
 第三篇——软件之殇，WE ARE THOUSANDS APART!
第二篇——The communication during software engineering.
原文地址：https://www.cnblogs.com/hqutcy/p/7307410.html