Python 写网络爬虫思路分析

首先从程序入口开始分析，在程序入口处传入一个待爬取的网址，

使用下载器Html_downloader类下载该地址的内容，使用解释器
parser分析内容,利用BeautifulSoup包抓取想要爬取的内容和地址，
把地址增加到Url_Manager管理器中，同时把抓取的内容收集起
来。这里一次抓取完成，检测Url_Manager管理器中是否还有新
的未爬取的网址，如果有则开始下次爬取。直至爬取完毕后，把
收集到的信息以一定的格式存储到一个文件中，至此整个网页爬
虫过程结束。
就数据结构而言，网页爬虫采用了图结构的广度优先搜索遍
历的模式完成爬取工作。

相关阅读:
C# SQLiteHelper
C# 自定义等待窗口
C# Work PPT to PDF
SQL 分隔字符串
SQL 客户端查看
SQL 自定义四舍五入
SQL 并联更新
C# 委托简单例子
每天一个Linux命令（52）telnet命令
每天一个Linux命令（51）ss命令

原文地址：https://www.cnblogs.com/vspiders/p/7399130.html