• Scrapy 爬虫模板--SitemapSpider


    SitemapSiper 允许我们通过网站的 Sitemap 文件中的 URL 来爬取一个网站。Sitemap 文件包含整个网站的每个网址链接,其中包含了上次更新时间、更新频率以及网址的权重(重要程度)。常见的 Sitemap 文件格式有 TXT 、 XML 和 HTML 格式,大部分网站是以 XML 格式来显示的。下面我们来看一下 CSDN 网站的 Sitemap 文件格式。
    CSDN 网站 Sitemap 文件
    我们来讲解一下上图中各个节点的意思:

    1. loc:完整的网址;
    2. lastmod:最后修改时间;
    3. changefreq:更新频率;
    4. priority:链接的权重。

    下面我们来讲解一下 SitemapSiper 中常用的属性:

    1. sitemap_urls:包含待爬取 url 的 Sitemap 列表;
    2. sitemap_rules:元组列表,包含正则表达式和回调函数,格式是这样的 (regex,callback)。regex 可以是正则表达式,也可以是一个字符串。 callback 用于处理 url 的回调函数;
    3. sitemap_follow:指定需要跟进 Sitemap 的正则表达式列表;
    4. sitemap_alternate_link:当指定的 url 有可选的链接时是否跟进,默认不跟进。这里所谓的可选链接指的是备用网址,一般的格式如下:
    <url>
      <loc>http://aaa.com</loc>
      <!--备用网址/可选链接-->
      <xhtml:link rel="alternate" hreflang="en" href="http://aaa.com/en"/>
    </url>
    

    零、例子

    下面我们通过爬取 CSDN 的 Sitemap 来看一下怎么使用 SitemapSiper 。

    from scrapy.spiders import SitemapSpider
    from ..items import CsdnItem
    
    
    class csdnspider(SitemapSpider):
        name = 'csdn_spider'
        sitemap_urls = ['https://www.csdn.net/sitemap.xml']
        sitemap_rules = [
            ('beautifulsoup4', 'parse')
        ]
    
        def parse(self, response):
            docs = response.css('.local-toc li')
            for doc in docs:
                item = CsdnItem()
                item["title"] = doc.css(".reference::text").extract_first()
                item["url"] = doc.css(".reference::attr(href)").extract_first()
                yield item
    
    
    import scrapy
    
    
    class CsdnItem(scrapy.Item):
        title = scrapy.Field()
        url = scrapy.Field()
    
  • 相关阅读:
    阿里云主机和RDS使用心得
    iOS_2_button控制物体形变
    js 继承概述
    Android 代码混淆
    “...”是字段,但此处被当作类型来使用
    Mali GPU OpenGL ES 应用性能优化--測试+定位+优化流程
    uva 213
    XML基础以及用DOM4j读取数据
    【Hibernate】Hibernate3.x独立执行时的Failed to load class &quot;org.slf4j.impl.StaticLoggerBinder&quot;错误
    《Pro Android Graphics》读书笔记之第六节
  • 原文地址:https://www.cnblogs.com/gangzhucoll/p/12778106.html
Copyright © 2020-2023  润新知