• Python静态网页爬虫相关知识


    想要开发一个简单的Python爬虫案例,并在Python3以上的环境下运行,那么需要掌握哪些知识才能完成一个简单的Python爬虫呢?

     爬虫的架构实现

        爬虫包括调度器,管理器,解析器,下载器和输出器。调度器可以理解为主函数的入口作为整个爬虫的头部,管理器实现包括对URL是否重复进行 判断,将已经爬到的URL加入到列表防止重复爬取。解析器则是对网页内容进行解析,解析出新的URL和网页内容。下载器则是下载解析器解析出的URL。输 出器则是顾名思义。

      1.1 调度器

        我的理解为类似主函数的入口,可以启动爬虫,停止爬虫和监视爬虫的运行情况。

     1.2 管理器

        管理器主要对url进行管理,包括已经爬取的URL和待爬取的URL,分类并加入两个set中,为什么采用set这个数据结构?后面会做介绍。

        1.3下载器

        下载器接受来自URL管理器传入的URL将其转换成一个字符串,到此完成下载器的功能。

        1.4解析器

        功能包括解析出有价值的数据,这里要了解基本的HTML的知识才能对指定数据进行爬取。网页中包括很多URL,解析出之后将加入管理器进行下一次的循环工作。

        1.5输出器

        

    后续将更新其他内容,希望大家能一起学习Python web开发

  • 相关阅读:
    Python web前端 03 CSS属性
    Python web前端 02 CSS
    Python web前端 01 HTML常用标签
    docker unbuntu 32-bit 更新apt-get
    打包django项目
    pyautogui控制鼠标键盘自动填写数据
    django交互vue遇到的问题
    二维码
    tree-data
    推荐算法 pd
  • 原文地址:https://www.cnblogs.com/dnaoba/p/5429008.html
Copyright © 2020-2023  润新知