如题,这篇文章主要介绍了什么是网络爬虫、网络爬虫的基本工作原理。
什么是网络爬虫?
网络爬虫,又叫做网络蜘蛛、自动检索工具。是一种“自动化浏览网络”的程序,或者说是一种网络机器人。
它们被广泛用于互联网搜索引擎或其它类似网站,以获取或更新这些网站的内容和检索方式。
世界上第一个网络爬虫是由麻省理工学院(MIT)的学生马修.格雷(Matthew Gray)在1993年写成的。
他给这个程序起了个名字“互联网漫游者”(“www wanderer”)。之后的网络爬虫越来越复杂,但是原理是一样的。
网络爬虫的工作原理
网络爬虫是如何下载整个互联网的?
假如我们从一个网站的首页开始,先把这个首页下载下来。然后分析这个网页,找到它里面所有的超链接。
接着网络爬虫继续爬取找到的这些链接,又可以找到其它的网页。如此不停地循环这个过程,就能够下载整个的互联网。
(图片来自网络)
上图可以表述为如下流程:
- 首先选取种子URL;
- 将这些URL放入待抓取URL队列;
- 从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
- 分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
网络爬虫的基本原理就是这样。