什么是网络爬虫？

如题，这篇文章主要介绍了什么是网络爬虫、网络爬虫的基本工作原理。

网络爬虫，又叫做网络蜘蛛、自动检索工具。是一种“自动化浏览网络”的程序，或者说是一种网络机器人。

它们被广泛用于互联网搜索引擎或其它类似网站，以获取或更新这些网站的内容和检索方式。

世界上第一个网络爬虫是由麻省理工学院（MIT）的学生马修.格雷（Matthew Gray）在1993年写成的。

他给这个程序起了个名字“互联网漫游者”（“www wanderer”）。之后的网络爬虫越来越复杂，但是原理是一样的。

网络爬虫的工作原理

网络爬虫是如何下载整个互联网的？

假如我们从一个网站的首页开始，先把这个首页下载下来。然后分析这个网页，找到它里面所有的超链接。

接着网络爬虫继续爬取找到的这些链接，又可以找到其它的网页。如此不停地循环这个过程，就能够下载整个的互联网。

（图片来自网络）

上图可以表述为如下流程：

首先选取种子URL；
将这些URL放入待抓取URL队列；
从待抓取URL队列中取出待抓取在URL，解析DNS，并且得到主机的ip，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。
分析已抓取URL队列中的URL，分析其中的其他URL，并且将URL放入待抓取URL队列，从而进入下一个循环。

网络爬虫的基本原理就是这样。

相关阅读:
python写的文件同步服务器
从外部调用Django模块
python监视线程池
RabbitMQ手册翻译 RPC服务的例子
python logging 模块完整使用示例
使用内存磁盘加速linux
About learning on the internet
[转]伟大的程序员是怎样炼成的
RabbitMQ手册翻译 Hello World的例子
事半功倍：你应该知道的HTML5五大特性(转）

原文地址：https://www.cnblogs.com/guohaojintian/p/5848017.html