• python 网络爬虫(三)


    一、网站地图爬虫

      在一个简单的爬虫中,我们将使用实例网站 robots.txt 文件中发现的网站地图来下载所有网站,为了解析网站地图,我们将会使用一个简单的正则表达式,从<loc>标签中提取 URL,

    def crawl_sitemap(url):
        sitemap = download(url)
        links = re.findall('<loc>(.*?)</loc>', sitemap)
        for link - in links:
            html = download(link)

    但是 ,我们无法使用呢sitemap 文件提供每个网页的连接

    二、 ID 遍历爬虫

      我们将利用网站结构的弱点,更加轻松的访问所有的内容。下面是一些国家示例的 URL:

      

    http://example.webscraping.com/view/Afghistan-1
    http://example.webscraping.com/view/Australiia-2
    http://example.webscraping.com/view/Brazil-3

    可以看出,这些 URL 只在结尾处有所区别,包括国家名(作为页面别名)和 ID,在 URL 中包含页面别名是非诚普遍的做法,可以对搜索引擎起到帮助的作用,一般情况下,web 服务器会忽略这个字符串,值使用 ID 来匹配数据库中的相关记录。

     

      

  • 相关阅读:
    1250. Check If It Is a Good Array
    380. Insert Delete GetRandom O(1)
    378. Kth Smallest Element in a Sorted Matrix
    341. Flatten Nested List Iterator
    387. First Unique Character in a String
    454. 4Sum II
    D
    勇敢的妞妞 ( 状压 + 思维)
    P1879 [USACO06NOV]玉米田Corn Fields (状压dp入门)
    G
  • 原文地址:https://www.cnblogs.com/jcjc/p/10873760.html
Copyright © 2020-2023  润新知