• urllib库的基础知识


    一、库

    import urllib.request

    二、打开网页

    通过urlopen()的方法,实现网页的打开。必须加“http://”

    import urllib.request
    response=urllib.request.urlopen('http://www.baidu.com')
    

    2.1urlopen方法说明

    urlopen(url,data,timeout) url 网址(必传参数)
    data 默认为空,用于传递POST或GET的数据
    timeout

    可以设置等待多久超时,为了解决一些网站实在响应过慢而造成的影响。

    该参数属于隐式过期时间,如果响应提前,则时间提前结束


    三、传递带header请求头的url

    import urllib.request
    url = 'http://www.budejie.com'#目标访问地址
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'#网页请求头
    headers = {'User-Agent' : user_agent }#将请求头组合成键值对形式
    req=urllib.request.Request(url,headers=header)#通过Request方法给url加访问头
    response=urllib.request.urlopen(req)#打开带请求头的url
    

    3.1请求头说明

    Header解释示例
    Accept 指定客户端能够接收的内容类型 Accept: text/plain, text/html
    Accept-Charset 浏览器可以接受的字符编码集。 Accept-Charset: iso-8859-5
    Accept-Encoding 指定浏览器可以支持的web服务器返回内容压缩编码类型。 Accept-Encoding: compress, gzip
    Accept-Language 浏览器可接受的语言 Accept-Language: en,zh
    Accept-Ranges 可以请求网页实体的一个或者多个子范围字段 Accept-Ranges: bytes
    Authorization HTTP授权的授权证书 Authorization: Basic QWxhZGRpbjpvcGVuIHNlc2FtZQ==
    Cache-Control 指定请求和响应遵循的缓存机制 Cache-Control: no-cache
    Connection 表示是否需要持久连接。(HTTP 1.1默认进行持久连接) Connection: close
    Cookie HTTP请求发送时,会把保存在该请求域名下的所有cookie值一起发送给web服务器。 Cookie: $Version=1; Skin=new;
    Content-Length 请求的内容长度 Content-Length: 348
    Content-Type 请求的与实体对应的MIME信息 Content-Type: application/x-www-form-urlencoded
    Date 请求发送的日期和时间 Date: Tue, 15 Nov 2010 08:12:31 GMT
    Expect 请求的特定的服务器行为 Expect: 100-continue
    From 发出请求的用户的Email From: user@email.com
    Host 指定请求的服务器的域名和端口号 Host: www.zcmhi.com
    If-Match 只有请求内容与实体相匹配才有效 If-Match: “737060cd8c284d8af7ad3082f209582d”
    If-Modified-Since 如果请求的部分在指定时间之后被修改则请求成功,未被修改则返回304代码 If-Modified-Since: Sat, 29 Oct 2010 19:43:31 GMT
    If-None-Match 如果内容未改变返回304代码,参数为服务器先前发送的Etag,与服务器回应的Etag比较判断是否改变 If-None-Match: “737060cd8c284d8af7ad3082f209582d”
    If-Range 如果实体未改变,服务器发送客户端丢失的部分,否则发送整个实体。参数也为Etag If-Range: “737060cd8c284d8af7ad3082f209582d”
    If-Unmodified-Since 只在实体在指定时间之后未被修改才请求成功 If-Unmodified-Since: Sat, 29 Oct 2010 19:43:31 GMT
    Max-Forwards 限制信息通过代理和网关传送的时间 Max-Forwards: 10
    Pragma 用来包含实现特定的指令 Pragma: no-cache
    Proxy-Authorization 连接到代理的授权证书 Proxy-Authorization: Basic QWxhZGRpbjpvcGVuIHNlc2FtZQ==
    Range 只请求实体的一部分,指定范围 Range: bytes=500-999
    Referer 先前网页的地址,当前请求网页紧随其后,即来路 Referer: http://www.zcmhi.com/archives/71.html
    TE 客户端愿意接受的传输编码,并通知服务器接受接受尾加头信息 TE: trailers,deflate;q=0.5
    Upgrade 向服务器指定某种传输协议以便服务器进行转换(如果支持) Upgrade: HTTP/2.0, SHTTP/1.3, IRC/6.9, RTA/x11
    User-Agent User-Agent的内容包含发出请求的用户信息 User-Agent: Mozilla/5.0 (Linux; X11)
    Via 通知中间网关或代理服务器地址,通信协议 Via: 1.0 fred, 1.1 nowhere.com (Apache/1.1)
    Warning 关于消息实体的警告信息 Warn: 199 Miscellaneous warning

    四、Proxy代理

    4.1配置流程

    import urllib.request as re
    url='http://www.baidu.com'
    proxy={'http':'192.168.1.1:8080'}#代理地址
    proxy_handler=re.ProxyHandler(proxy)#将代理地址传入处理器
    proxy_opener=re.build_opener(proxy_handler)#建立构造器
    proxy_opener.addheaders=[('user-agent','Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')]#传入请求头
    re.install_opener(proxy_opener)#安装构造器
    response=re.urlopen(url)#打开网页
    

    五、DebugLog调试模式

    import urllib.request as re
    url='http://www.baidu.com'
    debug_start=re.HTTPHandler(debuglevel=1)#开启调试模式
    debug_end=re.HTTPHandler(debuglevel=0)#关闭调试模式
    opener=re.build_opener(debug_start,debug_end)#执行构造器
    re.install_opener(opener)#安装构造器
    response=re.urlopen(url)
    

     

    六、URLError异常处理

    使用try...except...来处理异常情况,一般的异常情况分两种:URLErrorHTTPError

    import urllib.request as re
    url='http://www.baidu.com'
    res=re.Request(url)
    try:
        re.urlopen(res)
    except re.HTTPError as e:
        print(e.code)#返回异常状态值
    except re.URLError as e:
        print(e.reason)#返回错误结果
    else:
        print('ALl Right')
    

    6.1状态码

    根据响应结果的类型,大致分为以下几类:

    1XX(信息类):该类型状态码表示接收到请求并且继续处理。

    • 100,客户端必须继续发出请求。
    • 101,客户端要求服务器根据请求转换HTTP协议版本。

    2XX(响应成功):该类型状态码表示动作被成功接收、理解和接受。

    • 200,表明该请求被成功地完成,所请求的资源发送到客户端。
    • 201,提示知道新文件的URL。
    • 202,接受并处理,但处理未完成。
    • 203,返回信息不确定或不完整。
    • 204,收到请求,但返回信息为空。
    • 205,服务器完成了请求,用户必须复位当前已经浏览过的文件。
    • 206,服务器已经完成了部分用户的GET请求。

    3XX(重定向类):该类型状态码表示为了完成指定的动作,必须接受进一步处理。

    • 300,请求的资源可在多处获得。
    • 301,本网页被永久性转移到另一个URL。
    • 302,请求的网页被重定向到新的地址。
    • 303,建议用户访问其他URL或访问方式。
    • 304,自从上次请求后,请求的网页未修改过。
    • 305,请求的资源必须从服务器指定的地址获得。
    • 306,前一版本HTTP中使用的代码,现已不再使用。
    • 307,声明请求的资源临时性删除。

    XX(客户端错误类):该类型状态码表示请求包含错误语法或不能正确执行。

    • 400,客户端请求有语法错误。
    • 401,请求未经授权。
    • 402,保留有效ChargeTo头响应。
    • 403,禁止访问,服务器收到请求,但拒绝提供服务。
    • 404,可连接服务器,但服务器无法取得所请求的网页,请求资源不存在。
    • 405,用户在Request-Line字段定义的方法不被允许。
    • 406,根据用户发送的Accept,请求资源不可访问。
    • 407,类似401,用户必须首先在代理服务器上取得授权。
    • 408,客户端没有在用户指定的时间内完成请求。
    • 409,对当前资源状态,请求不能完成。
    • 410,服务器上不再有此资源。
    • 411,服务器拒绝用户定义的Content-Length属性请求。
    • 412,一个或多个请求头字段在当前请求中错误。
    • 413,请求的资源大于服务器允许的大小。
    • 414,请求的资源URL长于服务器允许的长度。
    • 415,请求资源不支持请求项目格式。
    • 416,请求中包含Range请求头字段,在当前请求资源范围内没有range指示值。
    • 417,服务器不满足请求Expect头字段指定的期望值。

    5XX(服务器错误类):该类型状态码表示服务器或网关错误。

    • 500,服务器错误。
    • 501,服务器不支持请求的功能。
    • 502,网关错误。
    • 503,无法获得服务。
    • 504,网关超时。
    • 505,不支持的http版本。

    七、Cookie

    7.1引入

    import http.cookiejar
    

    7.2创建流程

    import urllib.request as re
    import http.cookiejar
    url="www.baidu.com"
    c=http.cookiejar.CookieJar()#创建cookie实例
    handler=re.HTTPCookieProcessor(c)#创建cookie进程
    opener=re.build_opener(handler)#创建构造器
    re.install_opener(opener)#安装构造器
    response=re.urlopen(url)#打开网页
    

      

     

     

  • 相关阅读:
    jQuery
    jQuery
    jQuery
    jQuery
    jQuery
    JavaScript DOM 编程艺术
    JavaScript DOM 编程艺术
    JavaScript DOM 编程艺术
    【免费】Linux命令行与Shell脚本编程大全 第3版 PDF全本 21MB 百度网盘下载
    可重入函数(转载)
  • 原文地址:https://www.cnblogs.com/hezhefly/p/8120054.html
Copyright © 2020-2023  润新知