• 什么是网络爬虫?


    如题,这篇文章主要介绍了什么是网络爬虫、网络爬虫的基本工作原理。

     什么是网络爬虫?

    网络爬虫,又叫做网络蜘蛛、自动检索工具。是一种“自动化浏览网络”的程序,或者说是一种网络机器人。
    它们被广泛用于互联网搜索引擎或其它类似网站,以获取或更新这些网站的内容和检索方式。
     
    世界上第一个网络爬虫是由麻省理工学院(MIT)的学生马修.格雷(Matthew Gray)在1993年写成的。
    他给这个程序起了个名字“互联网漫游者”(“www wanderer”)。之后的网络爬虫越来越复杂,但是原理是一样的。
     
     

     网络爬虫的工作原理

    网络爬虫是如何下载整个互联网的?
    假如我们从一个网站的首页开始,先把这个首页下载下来。然后分析这个网页,找到它里面所有的超链接。
    接着网络爬虫继续爬取找到的这些链接,又可以找到其它的网页。如此不停地循环这个过程,就能够下载整个的互联网。
     
     
    (图片来自网络)
    上图可以表述为如下流程:
    1. 首先选取种子URL;
    2. 将这些URL放入待抓取URL队列;
    3. 从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
    4. 分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。

    网络爬虫的基本原理就是这样。

  • 相关阅读:
    python写的文件同步服务器
    从外部调用Django模块
    python监视线程池
    RabbitMQ手册翻译 RPC服务的例子
    python logging 模块完整使用示例
    使用内存磁盘加速linux
    About learning on the internet
    [转]伟大的程序员是怎样炼成的
    RabbitMQ手册翻译 Hello World的例子
    事半功倍:你应该知道的HTML5五大特性(转)
  • 原文地址:https://www.cnblogs.com/guohaojintian/p/5848017.html
Copyright © 2020-2023  润新知