• Python 开发轻量级爬虫01


    Python 开发轻量级爬虫

    (imooc总结01--课程目标)

    课程目标:掌握开发轻量级爬虫

        为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访问,有些网页是
    使用了Ajax异步加载的内容,这些网页的抓取就会比较复杂。
    
    这里只会考虑不需要登录的静态加载网页的抓取。
    课程包含以下内容:
    1.爬虫简介
        介绍爬虫是什么?它实现了什么功能?
    2.简单爬虫架构
        介绍简单的爬虫架构,架构中包含了哪些模块,这些模块怎么组装在一起完成整个爬取任务的。但该架构经过拓展是可以爬取所有互联网网页的。
    该架构包括三大模块。
    3.URL管理器
        用来管理将要抓取的url和已经抓取过的url,这两方面的内容。
    4.网页下载器(urllib2)
        给定一个url,需要将一个url的网页下载到本地以后,才能进行后续的分析。这里使用Python自带的模块urllib2进行网页的下载。
    5.网页解析器(BeautifulSoup)
        得到网页的内容以后,需要通过解析,才能够提取出我们想要的感兴趣的内容。BeautifulSoup是python的第三方插件,通过这个插件可以很好的对网页进行解析。
    介绍完了爬虫架构和三大模块以后,来看一个完整实例。
    6.完整实例
        爬取百度百科Pyhon词条相关的1000个页面数据
        这个实例首先实现了架构的代码,然后用它来爬取百度百科Python词条相关的1000个网页数据,然后将这些数据写出到一个html页面中,打开这个页面,就可以
    看到我们所有已经爬取好的数据。
    以上就是接下来将要简单介绍的所有知识点。
  • 相关阅读:
    Netty之SubPage级别的内存分配
    Netty之Page级别的内存分配
    Netty内存池及命中缓存的分配
    新建maven工程问题001
    Eclipse使用技巧
    excel使用技巧
    java 单例模式
    springmvc拦截器验证登录时间
    Filter实现用户名验证
    springMVC的配置文件路径问题
  • 原文地址:https://www.cnblogs.com/billyzh/p/5840986.html
Copyright © 2020-2023  润新知