• 2.urllib库的使用


    urllib库的使用

    urllib库是Python内置的HTTP请求库,它包含了4个模块:

      request:最基本的HTTP请求模块,用来模拟发送请求

      error:异常处理模块。出现请求错误后,我们可以捕获异常,然后进行下一步的操作。

      parse:工具模块。提供了很多URL处理方法。

      robotparse:主要用来识网站的robots.text文件,用的比较少

    1.发送请求

      urllib的request模块可以帮助我们方便的发送请求并得到响应。下面我们来看一下用法:

      1.urlopen()

       urlopen()参数有url、data、timeout、context、cafile、capath、cadefault,我们只详细了解三个,他们比较重要:

          url:要请求的网址

          下面我们以Python官网为例,我们来把它抓取下来:

          

    import urllib.request
    response
    = urllib.request.urlopen("https://www.python.org/")
    print(response)

     我们充满期待的想要看到网页内容,却发现是这样:

    显而易见,我们得到的结果是一个HTTPResponse类的对象,我们想要得到它的内容得使用它的read()方法,另外read()得到的是bytes类型的数据,我们将它解码,方便观看

    import urllib.request
    response
    = urllib.request.urlopen("https://www.python.org/") print(response.read().decode("UTF-8"))

    这次得到的结果,如我们所愿,不就是网页的源代码嘛:

     下来我们说一下这个HTTPResponse类型的对象,他有很多属性和方法,

    https://www.cnblogs.com/kissdodog/archive/2013/02/06/2906677.html   这个博客中有详细说明,我就不多提了^_^

          data:data参数是可选的,但必须给bytes类型,一旦设置data参数,请求的方式就会变成POST,如果不设置则默认为GET

          我们通过代码看一下:

    import urllib.parse
    import urllib.request
    data
    = bytes(urllib.parse.urlencode({"word":"hello"}),encoding="UTF-8") #我们借助urllib库的parse中的urlencode方法将字典转化为字符串 response = urllib.request.urlopen("http://httpbin.org/post",data=data) #这个网站用来做HTTP请求测试,我们用来进行POST请示测试 print(response.read().decode("UTF-8"))

    我们来看一下结果:

    我们可以很清楚的看到我们传进的data参数出现在了form里面,我们知道只有POST请求才会把数据封装到form表单中。data设置的参数会被封装到form表单中,封装到请求头中传递给服务器。

          timeout:设置超时时间,单位为秒,当超过这个时间,请求没有得到响应,就会抛出异常。

    import urllib.request
    response
    = urllib.request.urlopen("http://httpbin.org/get",timeout=0.1) #我们将这个时间设置的短一点,请求不可能这么快得到响应,这样就会抛出异常 print(response.read())

     果然不出所料:

    但是,我们都知道Python有try except异常处理机制,我们在这里可以用到

    import socket
    import urllib.request
    import urllib.error
    try: response = urllib.request.urlopen("http://httpbin.org/get",timeout=0.1) except urllib.error.URLError as e: if isinstance(e.reason,socket.timeout): print("超时了")

    所以我们通过设置timeout,一旦超时进行异常处理,这样能很好的提高爬取速率

           context:用来指定SSL设置。

           cafile:CA证书。

           capath:CA证书的路径。

           cadefault:现在已弃用,默认值为false。

        2.Request

        我们可以利用urlopen()方法来发送请求,但是urlopen()中几个参数并不能构成一个完整的请求。我们需要借助Request类构建对象,对象中可以携带Headers等信息,从而实现完整的请求。

        我们先来看一下Request的用法:

        

    import urllib.request
    request
    = urllib.request.Request("https://python.org") print(type(request)) response = urllib.request.urlopen(request) #我们仍然使用urlopen()来发送请求,但是方法的参数不是URL,而是一个request对象,我们将参数独立成对象,可以灵活的进行参数配置。 print(response.read().decode("UTF-8"))

        下面我们看一下Request对象的参数有哪些:

        url:用于请求的URL,必传参数,其他都是选传。

        data:必须传bytes类型的。如果是字典,我们可以借助urllib.parse模块中的urlencode()进行编码。

        headers:请求头,是一个字典。我们可以直接构造,也可以通过调用add_header()方法添加

        ps:请求头中最常改的就是User-Agent,默认的User-Agent为Python-urllib,我们可以通过修改它来伪造浏览器。比如我们要伪装为火狐浏览器,可以设置为:

        Mozilla/4.0 (compatible; MSIE 5.5; Window NT)

        origin_req_host:请求放的host名称或IP地址

        unverifiable:用户用没有权限来选择接收请求的结果。默认为False,如果没有权限贼为True,否则为False。

        method:请求使用的方法,如GET、POST和PUT

        话不多说,我们来看一下:

        

    from urllib import request,parse
    
    url = "http://httpbin.org/post"
    headers = {
        "User-Agent":"Mozilla/4.0 (compatible; MSIE 5.5; Windows NT",
        "Host":"httpbin.org"
    }
    dict = {
        "name":"Germey"
    }
    data = bytes(parse.urlencode(dict),encoding="UTF-8")
    req = request.Request(url=url,data=data,headers=headers,method="POST")
    response = request.urlopen(req)
    print(response.read().decode("UTF-8"))

    明显的看到,我们成功的设置了headers,method,data。

    headers信息我们还可以使用add_headers来添加

    from urllib import request,parse
    
    url = "http://httpbin.org/post"
    dict = {
        "name":"Germey"
    }
    data = bytes(parse.urlencode(dict),encoding="UTF-8")
    req = request.Request(url=url,data=data,method="POST")
    req.add_header("User-Agent","Mozilla/4.0 (compatible; MSIE 5.5; Windows NT")   #add_headers(key,value)
    response = request.urlopen(req)
    print(response.read().decode("UTF-8"))

    2.处理异常

    我们已经了解了怎样发送请求,但是请求不是每次都能得到响应,可能会出现异常,不去处理它程序可能因此停掉,所以很有必要去处理异常。

    urllib的error模块定义了由request模块产生的异常。如果出现问题,request模块会抛出error模块中定义的异常。

      1.URLError

      URLError类来自error模块,是error异常模块的基类,由request模块产生的异常都可以通过捕获这个类来处理,它的属性reason可以返回错误原因。

    from urllib import request,error
    
    try:
        response = request.urlopen("https://cuiqingcai.com/index.htm")     #我们打开的页面不存在
    except error.URLError as e:
        print(e.reason) 

    我们打开的页面不存在,按理说会报错,但是我们将异常捕获,并输出异常得原因,通过这样的操作,我们可以避免程序异常终止,而且异常得到了很好的处理。

       2.HTTPError

      他是URLError的子类,专门用来处理HTTP请求错误。他有三个属性:

      code:返回HTTP状态码,比如404表示页面不存在,500表示服务器内部出错

      reason:返回错误的原因

      headers:返回请求头

    from urllib import request,error
    
    try:
        response = request.urlopen("http://cuiqingcai.com/index.htm")
    except error.HTTPError as e:
        print(e.reason,e.code,e.headers,sep="
    ")

    同样的网页,我们通过捕获HTTPError来获得reson,code和headers属性。因为URLError是HTTPError的子类,所以我们可以选择捕获子类的错误,如果没有再去捕获父类错误,代码如下:

    from urllib import request,error
    
    try:
        response = request.urlopen("http://cuiqingcai.com/index.htm")
    except error.HTTPError as e:
        print(e.reason,e.code,e.headers,sep="
    ")
    except error.URLError as e:
        print(e.reason)
    else:
        print("Request Successfully")

    但是有时候reason属性返回的不是字符串,而是一个对象:

    from urllib import request,error
    
    try:
        response = request.urlopen("http://cuiqingcai.com/index.htm",timeout=0.01)
    except error.HTTPError as e:
        print(e.reason,e.code,e.headers,sep="
    ")
        print(type(e.reason))
    except error.URLError as e:
        print(e.reason)
        print(type(e.reason))
    else:
        print("Request Successfully")

    我们可以很清楚的看到e.reson是一个socket.timeout对象,我们简单的记住就行了,请求超时后,返回的错误为timed out,是socket.timeout类的对象

    学了处理异常后,通过捕获异常并处理,可以使我们的程序更加的稳健。

    3.解析链接

    前面提到了urllib库里的parse模块,他提供了很多处理链接的方法,实现了URL各部分的抽取、合并、以及链接转化。

      1.urlparse()  

        该方法可以实现URL的识别和分段,共有三个参数,返回的结果是一个元组我们可以通过属性或索引拿到相应的值

        urlstring:待解析的URL,必选项

        scheme:默认的协议,如果链接没有带协议会解析出默认协议,否则解析出链接带的协议

        allow_fragments:是否忽略fragment,如果为false,fragment部分就会被忽略,会被解析成path、params或query的一部分

        urlparse()会把URL解析成6个部分,标准的链接格式如下:

        scheme://netloc/path;params?query#fragment

        协议://域名/访问路径;参数?查询条件#锚点

        查询条件一般用作GET类型的URL,锚点用于定位页面内部的下拉位置

    from urllib.parse import urlparse
    
    result = urlparse("http://www.baidu.com/index.html;user?id=5#comment")
    print(type(result),result,sep="
    ")

      2.urlunparse()

       该方法接受一个可迭代对象,长度必须是6,对可迭代对象进行遍历,构造URL

      

    from urllib.parse import urlunparse
    
    data = ["http","www.baidu.com","index.html","user","a=6","comment"]
    print(urlunparse(data))

      3.urlsplit()

      该方法与urlparse()方法类似,只不过它不再单独解析params,params合并到path中,返回的也是个元组,长度为5

      

    from urllib.parse import urlsplit
    
    result = urlsplit("http://www.baidu.com/index.html;user?a=6#comment")
    print(result)

      4.urlunsplit()

      参照urlunparse(),但是长度为5

      5.urljoin()

       有两个参数,第一个为base_url(基础链接),第二个为new_url(新的链接),该方法会解析base_url的scheme,netloc和path,如果新的链接存在就是用新的链接的部分,如果不存在就补充。

    from urllib.parse import urljoin
    
    print(urljoin("http://www.baidu.com","FAQ.html"))
    print(urljoin("http://www.baidu.com","https://cuiqingcai.com/FAQ.html"))
    print(urljoin("http://www.baidu.com/about.html","https://cuiqingcai.com/FAQ.html"))
    print(urljoin("http://www.baidu.com/about.html","http://cuiqingcai.com/FAQ.html?question=2"))
    print(urljoin("http://www.baidu.com?wd=abc","https://cuiqingcai.com/index.php"))
    print("http://www.baidu.com","?category=2#comment")
    print("www.baidu.com","?category=2#comment")
    print("www.baidu.com#comment","?category=2")

      6.urlencode() 

       在构造GET请求的参数时,可以将字典类型的数据转化为GET请求参数

      

    from urllib.parse import urlencode
    
    params = {
        "name":"heesch",
        "age":18
    }
    base_url = "http://baidu.com?"
    url = base_url + urlencode(params)
    print(url)

      7.parse_qs()

       与urlencode()相反,将GET请求的参数化为字典的形式

      

    from urllib.parse import parse_qs
    query = "name=heesch&age=18"
    print(parse_qs(query))

      8.parse_qsl()

      他是将GET请求的参数转化为元组组成的列表

      

    from urllib.parse import parse_qsl
    query = "name=heesch&age=18"
    print(parse_qsl(query))

      9.quote()

       将内容转化为URL编码的格式,URL中带有中文参数时,有时可能会导致乱码的问题。

      

    from urllib.parse import quote
    
    keyword = "壁纸"
    url = "http://www.baidu.com" + quote(keyword)
    print(url)

      10.unquote()

       与quote相反,将URL进行解码

      

    from urllib.parse import unquote
    
    url = "http://www.baidu.com%E5%A3%81%E7%BA%B8"
    print(unquote(url))

     4.分析Robots协议

      1.Robots协议

        Robots协议也称作爬虫协议、机器人协议,用来告诉爬虫和搜索引擎哪些页面可以爬取,哪些不可以抓取。通常是一个叫做robots.txt的文本文件,放在网站的根目录下

        当搜索爬虫访问一个站点是,首先会检查这个站点的根目录下是否存在robots.txt文件,如果存在,搜索爬虫则会根据其中定义的爬取范围来爬取。如果没有,则搜索爬虫会访问所有可直接访问的站点。

       下面看一个robots.text样例:

    User-agent:*
    Disallow:/
    Allow:/public/

       User-agent:设置爬虫的名称,* 表示该协议对任何爬虫都有效

          Dislalow:制定了不允许抓取的目录,若为/ 表示不允许抓取任何页面

        Allow:和Disallow一起出现,限制访问路径

      2.常见爬虫

      

      3.robotparse

       了解完Robots协议之后,我们可以使用robotparser模块来解析robot.txt。该模块提供一个类RobotFileParse,它可以根据robots.txt文件来判断一个爬虫是否有权限来爬取这个页面

        声明:urllib.robotparser.RobotFileParser(url="")

        这个类常用的方法:

        set_url():设置robots.txt文件的链接。如果创建RobotFileParse对象时传入链接,就不需要用这个方法进行设置了

        read():读取robots.text文件并分析,不会返回结果,但是执行了读取操作,如果不执行,下面的方法判断都为false

        parse():用来解析robots.txt文件

        can_fetch():有两个参数,第一个是User-agent,第二个是要抓取的URL,返回的结果为True或False,用来判断是否能抓取这个页面

        mtime():返回上次抓取robot.txt的时间,对于长时间分析或抓取的搜索爬虫需要定期检查

        modified():将当前时间设置为上次抓取和分析robots.txt的时间

    我们先用can_fetch()方法来判断网页是否能抓取:

    from urllib.robotparser import RobotFileParser
    
    rp = RobotFileParser()
    rp.set_url("http://jianshu.com/robot.txt")
    rp.read()
    print(rp.can_fetch("*","http://www.jianshu.com/p/b67554025d7d"))
    print(rp.can_fetch("*","http://www.jianshu.com/search?q=python&page=1&type=collections"))

    两个false,都不让抓取。

    我们再用parse()方法来判断网页是否能抓取:

    from urllib.robotparser import RobotFileParser
    from urllib import request,parse
    
    url = "https://www.jianshu.com/robots.txt"
    headers = {
        "User-Agent":"Mozilla/4.0 (compatible; MSIE 5.5; Windows NT",
    }
    rp = RobotFileParser()
    req = request.Request(url=url,headers=headers,method="GET")
    rp.parse(request.urlopen(req).read().decode("UTF-8").split("
    "))
    print(rp.can_fetch("*","http://www.jianshu.com/p/b67554025d7d"))
    print(rp.can_fetch("*","http://www.jianshu.com/search?q=python&page=1&type=collections"))

    我们学完robotparser模块后,我们可以方便的判断哪些一面可以抓取,哪些页面不能抓取。

      

  • 相关阅读:
    Vue学习路线
    国庆游
    Axure RP 9 Beta 开放下载(更新激活密钥和汉化包)
    python虚拟环境
    异步任务神器 Celery-入门
    pymysql操作mysql
    安装 RabbitMQ
    GIT工作流
    flask入门与发送邮件与QQ邮箱
    Mysql第一周
  • 原文地址:https://www.cnblogs.com/yhrfighting123/p/11018141.html
Copyright © 2020-2023  润新知