• scrapy不抓取重复的网页解决办法


    1、scrapy爬虫遇到一个问题,有时候会对一个网页重复爬取提取不同的数据,这时候会发现,后面的那个重复爬取scrapy直接终止了。

    原因:

    scrapy 的request逻辑里面  dont_filter=False,也就是重复网页不爬取,需要修改下这个参数

    classscrapy.http.Request(url[, callbackmethod='GET'headersbodycookiesmetaencoding='utf-8'priority=0dont_filter=Falseerrbackflagscb_kwargs])

     

     

    解决办法:

    Scrapy的官方文档:

    http://doc.scrapy.org/en/latest/topics/request-response.html#scrapy.http.Request

    Request函数在文档中的定义:

    class scrapy.http.Request(url[, callbackmethod='GET'headersbodycookiesmetaencoding='utf-8'priority=0dont_filter=Falseerrback])

    在这儿, request的 dont_filter 设置为True就可以了

    也就是说

    yield scrapy.Request(url=nexturl, callback=self.parse,dont_filter=True)
    搞定
  • 相关阅读:
    Webpack安装及基础配置
    相机拍到了光源的灯珠图像
    面向对象特殊用法
    面向对象初始
    内置函数和必须的模块
    模块基本模式
    函数三
    函数二
    装饰器
    函数初识
  • 原文地址:https://www.cnblogs.com/duole/p/11433907.html
Copyright © 2020-2023  润新知