• 【归纳】爬虫基本库的使用


    urllib

    • urllib是Python3内置的HTTP请求库,它包含4个模块
      • request:HTTP请求模块,用来模拟发送请求
      • error:异常处理模块
      • parse:工具模块,提供了许多URL处理方法,包括拆分,解析,合并等
      • robotparser:用于识别网站的爬虫证书,该模块一般很少使用

    发送请求

    • urllib.request模块提供了最基本的构造HTTP请求的方法
    • response = urllib.request.urlopen('https://www.python.org')
      • 返回的response是一个HTTPResponse对象,通过其方法和属性可以得到目标网页的一系列信息
    • urllib.request模块提供了一个BaseHandler类,其子类和build_opener()配合可以实现更多高级的请求(登录验证,Cookies,代理等)

    requests库

    • requests库的功能与urllib类似,但它可以更方便地实现登录验证、Cookies、代理设置等高级操作
  • 相关阅读:
    【XSY2505】tree
    【XSY2558】圆上的蚂蚁 Ants on circle
    【模板】生成函数
    左偏树
    Link cut tree
    高斯消元
    cdq分治——bzoj2683简单题
    半平面交
    关于向量,凸包及旋转卡壳
    状压dp:luogu P2704 [NOI2001]炮兵阵地
  • 原文地址:https://www.cnblogs.com/lokvahkoor/p/10671122.html
Copyright © 2020-2023  润新知