• 爬虫之scrapy框架


    一 scrapy框架简介

    1 介绍

    Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy 是基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发。

    整体架构大致如下:

    """
    Components:
    
    1、引擎(EGINE)
    引擎负责控制系统所有组件之间的数据流,并在某些动作发生时触发事件。有关详细信息,请参见上面的数据流部分。
    
    2、调度器(SCHEDULER)
    用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
    
    3、下载器(DOWLOADER)
    用于下载网页内容, 并将网页内容返回给EGINE,下载器是建立在twisted这个高效的异步模型上的
    
    4、爬虫(SPIDERS)
    SPIDERS是开发人员自定义的类,用来解析responses,并且提取items,或者发送新的请求
    
    5、项目管道(ITEM PIPLINES)
    在items被提取后负责处理它们,主要包括清理、验证、持久化(比如存到数据库)等操作
    
    """

    官网链接

    2 安装

    #Windows平台
    1、pip3 install wheel #安装后,便支持通过wheel文件安装软件,wheel文件官网:https://www.lfd.uci.edu/~gohlke/pythonlibs
    3、pip3 install lxml
    4、pip3 install pyopenssl
    5、下载并安装pywin32:https://sourceforge.net/projects/pywin32/files/pywin32/
    6、下载twisted的wheel文件:()http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted(在134天中海涛发的文件)
    
    7、小黑框cmd中执行pip3 install 跟上下载的(或者海涛发的文件的)目录Twisted-17.9.0-cp36-cp36m-win_a

    3 命令行工具

    # 1 查看帮助
        scrapy -h
        scrapy <command> -h
    
    # 2 有两种命令:其中Project-only必须切到项目文件夹下才能执行,而Global的命令则不需要
        Global commands:
            startproject #创建项目
            genspider    #创建爬虫程序
            settings     #如果是在项目目录下,则得到的是该项目的配置
            runspider    #运行一个独立的python文件,不必创建项目
            shell        #scrapy shell url地址  在交互式调试,如选择器规则正确与否
            fetch        #独立于程单纯地爬取一个页面,可以拿到请求头
            view         #下载完毕后直接弹出浏览器,以此可以分辨出哪些数据是ajax请求
            version      #scrapy version 查看scrapy的版本,scrapy version -v查看scrapy依赖库的版本
        Project-only commands:
            crawl        #运行爬虫,必须创建项目才行,确保配置文件中ROBOTSTXT_OBEY = False
            check        #检测项目中有无语法错误
            list         #列出项目中所包含的爬虫名
            edit         #编辑器,一般不用
            parse        #scrapy parse url地址 --callback 回调函数  #以此可以验证我们的回调函数是否正确
            bench        #scrapy bentch压力测试
    
    # 3 官网链接
        https://docs.scrapy.org/en/latest/topics/commands.html

    4 目录结构

    """
    project_name/
       scrapy.cfg
       project_name/
           __init__.py
           items.py
           pipelines.py
           settings.py
           spiders/
               __init__.py
               爬虫1.py
               爬虫2.py
               爬虫3.py
    
    """

    文件说明:

    • scrapy.cfg  项目的主配置信息,用来部署scrapy时使用,爬虫相关的配置信息在settings.py文件中。
    • items.py    设置数据存储模板,用于结构化数据,如:Django的Model
    • pipelines    数据处理行为,如:一般结构化的数据持久化
    • settings.py 配置文件,如:递归的层数、并发数,延迟下载等。强调:配置文件的选项必须大写否则视为无效,正确写法USER_AGENT='xxxx'
    • spiders      爬虫目录,如:创建文件,编写爬虫规则

    注意:

    1、一般创建爬虫文件时,以网站域名命名

    2、默认只能在终端执行命令,为了更便捷操作:

    1
    2
    3
    #在项目根目录下新建:entrypoint.py
    from scrapy.cmdline import execute
    execute(['scrapy''crawl''xiaohua'])

    框架基础:spider类,选择器,

    二 Spider类

    Spiders是定义如何抓取某个站点(或一组站点)的类,包括如何执行爬行(即跟随链接)以及如何从其页面中提取结构化数据(即抓取项目)。换句话说,Spiders是您为特定站点(或者在某些情况下,一组站点)爬网和解析页面定义自定义行为的地方。 

    复制代码
    '''
    1、 生成初始的Requests来爬取第一个URLS,并且标识一个回调函数
         第一个请求定义在start_requests()方法内默认从start_urls列表中获得url地址来生成Request请求,
    默认的回调函数是parse方法。回调函数在下载完成返回response时自动触发 2、 在回调函数中,解析response并且返回值 返回值可以4种: 包含解析数据的字典 Item对象 新的Request对象(新的Requests也需要指定一个回调函数) 或者是可迭代对象(包含Items或Request) 3、在回调函数中解析页面内容 通常使用Scrapy自带的Selectors,但很明显你也可以使用Beutifulsoup,lxml或其他你爱用啥用啥。 4、最后,针对返回的Items对象将会被持久化到数据库 通过Item Pipeline组件存到数据库:https://docs.scrapy.org/en/latest/topics/item-pipeline.html#topics-item-pipeline) 或者导出到不同的文件(通过Feed exports:https://docs.scrapy.org/en/latest/topics/feed-exports.html#topics-feed-exports) '''
    复制代码

    三 选择器

    复制代码
    为了解释如何使用选择器,我们将使用Scrapy shell(提供交互式测试)和Scrapy文档服务器中的示例页面,
    
    这是它的HTML代码:
    
    <html>
     <head>
      <base href='http://example.com/' />
      <title>Example website</title>
     </head>
     <body>
      <div id='images'>
       <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
       <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
       <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
       <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
       <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
      </div>
     </body>
    </html>
    
    首先,让我们打开shell:
    
    1 scrapy shell https://doc.scrapy.org/en/latest/_static/selectors-sample1.html
    然后,在shell加载之后,您将获得响应作为response shell变量,并在response.selector属性中附加选择器。
    
    让我们构建一个XPath来选择title标签内的文本:
    
    
    >>> response.selector.xpath('//title/text()')
    [<Selector (text) xpath=//title/text()>]
    使用XPath和CSS查询响应非常常见,响应包括两个便捷快捷方式:response.xpath()和response.css():
    
    
    >>> response.xpath('//title/text()')
    [<Selector (text) xpath=//title/text()>]
    >>> response.css('title::text')
    [<Selector (text) xpath=//title/text()>]
    正如你所看到的,.xpath()并且.css()方法返回一个 SelectorList实例,这是新的选择列表。此API可用于快速选择嵌套数据:
    
    
    >>> response.css('img').xpath('@src').extract()
    [u'image1_thumb.jpg',
     u'image2_thumb.jpg',
     u'image3_thumb.jpg',
     u'image4_thumb.jpg',
     u'image5_thumb.jpg']
    要实际提取文本数据,必须调用selector .extract() 方法,如下所示:
    
    
    >>> response.xpath('//title/text()').extract()
    [u'Example website']
    如果只想提取第一个匹配的元素,可以调用选择器 .extract_first()
    
    >>> response.xpath('//div[@id="images"]/a/text()').extract_first()
    u'Name: My image 1 '
    现在我们将获得基本URL和一些图像链接:
    
    >>> response.xpath('//base/@href').extract()
    [u'http://example.com/']
     
    >>> response.css('base::attr(href)').extract()
    [u'http://example.com/']
     
    >>> response.xpath('//a[contains(@href, "image")]/@href').extract()
    [u'image1.html',
     u'image2.html',
     u'image3.html',
     u'image4.html',
     u'image5.html']
     
    >>> response.css('a[href*=image]::attr(href)').extract()
    [u'image1.html',
     u'image2.html',
     u'image3.html',
     u'image4.html',
     u'image5.html']
     
    >>> response.xpath('//a[contains(@href, "image")]/img/@src').extract()
    [u'image1_thumb.jpg',
     u'image2_thumb.jpg',
     u'image3_thumb.jpg',
     u'image4_thumb.jpg',
     u'image5_thumb.jpg']
     
    >>> response.css('a[href*=image] img::attr(src)').extract()
    [u'image1_thumb.jpg',
     u'image2_thumb.jpg',
     u'image3_thumb.jpg',
     u'image4_thumb.jpg',
     u'image5_thumb.jpg']
    复制代码

    四 Item(项目)

    抓取的主要目标是从非结构化源(通常是网页)中提取结构化数据。Scrapy蜘蛛可以像Python一样返回提取的数据。虽然方便和熟悉,但P很容易在字段名称中输入拼写错误或返回不一致的数据,尤其是在具有许多蜘蛛的较大项目中。

    为了定义通用输出数据格式,Scrapy提供了Item类。 Item对象是用于收集抓取数据的简单容器。它们提供类似字典的 API,并具有用于声明其可用字段的方便语法。

    1 声明项目

    使用简单的类定义语法和Field 对象声明项。这是一个例子:

    1
    2
    3
    4
    5
    6
    7
    import scrapy
     
    class Product(scrapy.Item):
    name = scrapy.Field()
    price = scrapy.Field()
    stock = scrapy.Field()
    last_updated = scrapy.Field(serializer=str)

    注意那些熟悉Django的人会注意到Scrapy Items被宣告类似于Django Models,除了Scrapy Items更简单,因为没有不同字段类型的概念。

    2 项目字段

    Field对象用于指定每个字段的元数据。例如,last_updated上面示例中说明的字段的序列化函数。

    您可以为每个字段指定任何类型的元数据。Field对象接受的值没有限制。出于同样的原因,没有所有可用元数据键的参考列表。

    Field对象中定义的每个键可以由不同的组件使用,只有那些组件知道它。您也可以根据Field自己的需要定义和使用项目中的任何其他键。

    Field对象的主要目标是提供一种在一个地方定义所有字段元数据的方法。通常,行为取决于每个字段的那些组件使用某些字段键来配置该行为。

    3 使用项目

    以下是使用上面声明的Product项目对项目执行的常见任务的一些示例 。您会注意到API与dict API非常相似。

    4 扩展项目

    您可以通过声明原始Item的子类来扩展Items(以添加更多字段或更改某些字段的某些元数据)。

    例如:

    1
    2
    3
    class DiscountedProduct(Product):
          discount_percent = scrapy.Field(serializer=str)
          discount_expiration_date = scrapy.Field()

    五 Item PipeLine

    在一个项目被蜘蛛抓取之后,它被发送到项目管道,该项目管道通过顺序执行的几个组件处理它。

    每个项目管道组件(有时简称为“项目管道”)是一个实现简单方法的Python类。他们收到一个项目并对其执行操作,同时决定该项目是否应该继续通过管道或被丢弃并且不再处理。

    项目管道的典型用途是:

    • cleansing HTML data
    • validating scraped data (checking that the items contain certain fields)
    • checking for duplicates (and dropping them)
    • storing the scraped item in a database

    1 编写自己的项目管道

    复制代码
    '''
    每个项管道组件都是一个必须实现以下方法的Python类:
    
    process_item(self,项目,蜘蛛)
    为每个项目管道组件调用此方法。process_item() 
    
    必须要么:返回带数据的dict,返回一个Item (或任何后代类)对象,返回Twisted Deferred或引发 DropItem异常。丢弃的项目不再由其他管道组件处理。
    
    此外,他们还可以实现以下方法:
    
    open_spider(self,蜘蛛)
    打开蜘蛛时会调用此方法。
    
    close_spider(self,蜘蛛)
    当蜘蛛关闭时调用此方法。
    
    from_crawler(cls,crawler )
    如果存在,则调用此类方法以从a创建管道实例Crawler。它必须返回管道的新实例。Crawler对象提供对所有Scrapy核心组件的访问,
    如设置和信号; 它是管道访问它们并将其功能挂钩到Scrapy的一种方式。
    '''
    复制代码

    2 项目管道示例

    (1) 价格验证和丢弃物品没有价格

    让我们看看下面的假设管道,它调整 price那些不包含增值税(price_excludes_vat属性)的项目的属性,并删除那些不包含价格的项目:

    (2) 将项目写入JSON文件

    以下管道将所有已删除的项目(来自所有蜘蛛)存储到一个items.jl文件中,每行包含一个以JSON格式序列化的项目:

    注意JsonWriterPipeline的目的只是介绍如何编写项目管道。如果您确实要将所有已删除的项目存储到JSON文件中,则应使用Feed导出

    (3) 将项目写入数据库

    在这个例子中,我们将使用pymongo将项目写入MongoDB。MongoDB地址和数据库名称在Scrapy设置中指定; MongoDB集合以item类命名。

    这个例子的要点是展示如何使用from_crawler() 方法以及如何正确地清理资源:

    (4) 重复过滤

    一个过滤器,用于查找重复项目,并删除已处理的项目。假设我们的项目具有唯一ID,但我们的蜘蛛会返回具有相同ID的多个项目:

    3 激活项目管道组件

    要激活Item Pipeline组件,必须将其类添加到 ITEM_PIPELINES设置中,如下例所示:

    1
    2
    3
    4
    ITEM_PIPELINES = {
        'myproject.pipelines.PricePipeline'300,
        'myproject.pipelines.JsonWriterPipeline'800,
    }

    您在此设置中为类分配的整数值决定了它们运行的​​顺序:项目从较低值到较高值类进行。习惯上在0-1000范围内定义这些数字。

    六 下载中间件

    复制代码
    class MyDownMiddleware(object):
        def process_request(self, request, spider):
            """
            请求需要被下载时,经过所有下载器中间件的process_request调用
            :param request: 
            :param spider: 
            :return:  
                None,继续后续中间件去下载;
                Response对象,停止process_request的执行,开始执行process_response
                Request对象,停止中间件的执行,将Request重新调度器
                raise IgnoreRequest异常,停止process_request的执行,开始执行process_exception
            """
            pass
    
    
    
        def process_response(self, request, response, spider):
            """
            spider处理完成,返回时调用
            :param response:
            :param result:
            :param spider:
            :return: 
                Response 对象:转交给其他中间件process_response
                Request 对象:停止中间件,request会被重新调度下载
                raise IgnoreRequest 异常:调用Request.errback
            """
            print('response1')
            return response
    
        def process_exception(self, request, exception, spider):
            """
            当下载处理器(download handler)或 process_request() (下载中间件)抛出异常
            :param response:
            :param exception:
            :param spider:
            :return: 
                None:继续交给后续中间件处理异常;
                Response对象:停止后续process_exception方法
                Request对象:停止中间件,request将会被重新调用下载
            """
            return None
    复制代码

    七 settings配置

     View Code

    八 项目代码 

    下载项目代码

  • 相关阅读:
    #一点杂记
    《洛谷P3373 【模板】线段树 2》
    《Codeforces Round #681 (Div. 2, based on VK Cup 2019-2020
    《牛客练习赛72C》
    《hdu2819》
    《hdu2818》
    《Codeforces Round #680 (Div. 2, based on Moscow Team Olympiad)》
    《51nod1237 最大公约数之和 V3》
    对输入的单词进行排序
    快速排序
  • 原文地址:https://www.cnblogs.com/thismyblogs/p/9757077.html
Copyright © 2020-2023  润新知