• 爬虫 增量式爬虫


    增量式爬虫

    引言:

        当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么,类似的情景,当我们在爬虫的过程中遇到时,我们是不是需要定时更新程序以便能爬取到网站中最近更新的数据呢?

    一.增量式爬虫

    • 概念:通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据。
    • 如何进行增量式的爬取工作:
      • 在发送请求之前判断这个URL是不是之前爬取过
      • 在解析内容后判断这部分内容是不是之前爬取过
      • 写入存储介质时判断内容是不是已经在介质中存在
        • 分析:

                不难发现,其实增量爬取的核心是去重, 至于去重的操作在哪个步骤起作用,只能说各有利弊。在我看来,前两种思路需要根据实际情况取一个(也可能都用)。第一种思路适合不断有新页面出现的网站,比如说小说的新章节,每天的最新新闻等等;第二种思路则适合页面内容会更新的网站。第三个思路是相当于是最后的一道防线。这样做可以最大程度上达到去重的目的。

    • 去重方法
      • 将爬取过程中产生的url进行存储,存储在redis的set中。当下次进行数据爬取时,首先对即将要发起的请求对应的url在存储的url的set中做判断,如果存在则不进行请求,否则才进行请求。
      • 对爬取到的网页内容进行唯一标识的制定,然后将该唯一表示存储至redis的set中。当下次爬取到网页数据的时候,在进行持久化存储之前,首先可以先判断该数据的唯一标识在redis的set中是否存在,在决定是否进行持久化存储。

    二.项目案例

    - 需求:爬取4567tv网站中所有的电影详情数据。

    爬虫文件

    import scrapy
    from scrapy.linkextractors import LinkExtractor
    from scrapy.spiders import CrawlSpider, Rule
    from ..items import ZlsProItem
    from redis import Redis
    
    
    class MovieSpider(CrawlSpider):
        name = 'movie'
        # allowed_domains = ['www.xx.com']
        # 起始url列表
        start_urls = ['http://www.4567kan.com/index.php/vod/show/id/5.html']
    
        # 规则解析器
        rules = (
            # follow=False 爬取当前HTML页面的所有连接提取器提取到的url
            Rule(LinkExtractor(allow=r'vod/show/id/5/page/d+.html'), callback='parse_item', follow=False),
        )
    
        # 创建redis连接
        conn = Redis(host="127.0.0.1", port=6379)
    
        # 数据解析
        def parse_item(self, response):
            # 电影名称和详情页的url
            li_list = response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')
            for li in li_list:
                # 获取电影名称
                name = li.xpath('.//div[@class="stui-vodlist__detail"]/h4/a/text()').extract_first()
                # 获取电影详情页url
                detail_url = 'http://www.4567kan.com' + li.xpath(
                    './/div[@class="stui-vodlist__detail"]/h4/a/@href').extract_first()
    
                # 实例化一个item对象
                item = ZlsProItem()
                item['name'] = name
    
                # 通过redis中的集合(set自动去重特性,满足增量式爬取)存储电影详情页url
                # 向redis集合中插入数据,存在则插入失败,返回0。否则成功返回1
                exist = self.conn.sadd("movie_detail_urls", detail_url)
    
                # 插入数据成功,则当前url是新数据,则手动请求获取内容信息
                if exist:
                    print("正在爬取网站更新数据!!!")
                    yield scrapy.Request(detail_url, callback=self.parse_detail, meta={"item": item})
                else:
                    print("网站数据暂无更新数据!!!")
    
        # 电影详情页信息
        def parse_detail(self, response):
            item = response.meta["item"]
    
            movie_desc = response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[2]/text()').extract_first()
            item['movie_desc'] = movie_desc
    
            # 提交数据到管道
            yield item

    管道文件

    class ZlsProPipeline(object):
    
        def process_item(self, item, spider):
    
            conn=spider.conn
            # print(item)
            conn.lpush('movies',item)
            return item

    爬取糗事百科中的段子和作者数据。

    爬虫文件

    # -*- coding: utf-8 -*-
    import scrapy
    from scrapy.linkextractors import LinkExtractor
    from scrapy.spiders import CrawlSpider, Rule
    from incrementByDataPro.items import IncrementbydataproItem
    from redis import Redis
    import hashlib
    class QiubaiSpider(CrawlSpider):
        name = 'qiubai'
        # allowed_domains = ['www.xxx.com']
        start_urls = ['https://www.qiushibaike.com/text/']
    
        rules = (
            Rule(LinkExtractor(allow=r'/text/page/d+/'), callback='parse_item', follow=True),
            Rule(LinkExtractor(allow=r'/text/$'), callback='parse_item', follow=True),
        )
        #创建redis链接对象
        conn = Redis(host='127.0.0.1',port=6379)
        def parse_item(self, response):
            div_list = response.xpath('//div[@id="content-left"]/div')
    
            for div in div_list:
                item = IncrementbydataproItem()
                item['author'] = div.xpath('./div[1]/a[2]/h2/text() | ./div[1]/span[2]/h2/text()').extract_first()
                item['content'] = div.xpath('.//div[@class="content"]/span/text()').extract_first()
    
                #将解析到的数据值生成一个唯一的标识进行redis存储
                source = item['author']+item['content']
                source_id = hashlib.sha256(source.encode()).hexdigest()
                #将解析内容的唯一表示存储到redis的data_id中
                ex = self.conn.sadd('data_id',source_id)
    
                if ex == 1:
                    print('该条数据没有爬取过,可以爬取......')
                    yield item
                else:
                    print('该条数据已经爬取过了,不需要再次爬取了!!!')

    管道文件

    # -*- coding: utf-8 -*-
    
    # Define your item pipelines here
    #
    # Don't forget to add your pipeline to the ITEM_PIPELINES setting
    # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
    
    from redis import Redis
    class IncrementbydataproPipeline(object):
        conn = None
    
        def open_spider(self, spider):
            self.conn = Redis(host='127.0.0.1', port=6379)
    
        def process_item(self, item, spider):
            dic = {
                'author': item['author'],
                'content': item['content']
            }
            # print(dic)
            self.conn.lpush('qiubaiData', dic)
            return item
  • 相关阅读:
    20175226 2018-2019-2 《Java程序设计》第二周学习总结
    存储管理-页面置换算法(页面淘汰算法)
    存储管理-存储组织
    进程管理-死锁问题
    操作系统-进程管理
    操作系统:进程管理、存储管理、文件管理、作业管理、设备管理
    第十一章 集合框架
    匿名内部类
    第10章 java常用类
    第8章 反射
  • 原文地址:https://www.cnblogs.com/XLHIT/p/11341321.html
Copyright © 2020-2023  润新知