Python静态网页爬虫相关知识

Python静态网页爬虫相关知识

想要开发一个简单的Python爬虫案例，并在Python3以上的环境下运行，那么需要掌握哪些知识才能完成一个简单的Python爬虫呢？

爬虫的架构实现

    爬虫包括调度器，管理器，解析器，下载器和输出器。调度器可以理解为主函数的入口作为整个爬虫的头部，管理器实现包括对URL是否重复进行判断，将已经爬到的URL加入到列表防止重复爬取。解析器则是对网页内容进行解析，解析出新的URL和网页内容。下载器则是下载解析器解析出的URL。输出器则是顾名思义。

  1.1 调度器

    我的理解为类似主函数的入口，可以启动爬虫，停止爬虫和监视爬虫的运行情况。

1.2 管理器

    管理器主要对url进行管理，包括已经爬取的URL和待爬取的URL，分类并加入两个set中，为什么采用set这个数据结构？后面会做介绍。

    1.3下载器

    下载器接受来自URL管理器传入的URL将其转换成一个字符串，到此完成下载器的功能。

    1.4解析器

    功能包括解析出有价值的数据，这里要了解基本的HTML的知识才能对指定数据进行爬取。网页中包括很多URL，解析出之后将加入管理器进行下一次的循环工作。

    1.5输出器

    略

后续将更新其他内容，希望大家能一起学习Python web开发。
相关阅读:
CentOS下使用Jexus部署.NetFramework站点 (二)
CentOS下使用Jexus部署.NetFramework站点 (一)
RDLC报表纵向合并单元格。
Access to the path '' is denied.解决方案
 7_文件上传.md
python接口自动化unittest+HTMLrunner
pytest命令行执行
 python+requests接口自动化测试框架实例详解教程123
python+requests接口自动化测试框架实例详解教程
 python进行接口请求，第一个接口返回的数据作为第二个参数的入参
原文地址：https://www.cnblogs.com/dnaoba/p/5429008.html