• python模块之urllib


    python文档官网地址:https://docs.python.org/3.6/library/urllib.html?highlight=urllib

    urllib 是一个收集以下模块以处理URL的包:

    urllib.request 用于打开和阅读URL
    urllib.error 包含由...提出的例外 urllib.request
    urllib.parse 用于解析URL
    urllib.robotparser用于解析robots.txt文件

    1、urllib.request

    urllib.request 模块提供了最基本的构造 HTTP (或其他协议如 FTP)请求的方法,利用它可以模拟浏览器的一个请求发起过程。

    利用不同的协议去获取 URL 信息。它的某些接口能够处理基础认证 ( Basic Authenticaton) 、redirections (HTTP 重定向)、 Cookies (浏览器 Cookies)等情况。而这些接口是由 handlers 和 openers 对象提供的。

    urllib.request模块定义了以下功能:

    (1)urllib.request.urlopen

    urllib.request.urlopen(url,data = None,[ timeout,] *,cafile = None,capath = None,cadefault = False,context = None )

    l  url,可以是字符串或 Request对象。

    l  data必须是指定要发送到服务器的其他数据的对象, 默认为 None, 当 data 不为 None 时, urlopen() 提交方式为 Post timeout:设置网站访问超时时间

    l  timeout参数指定阻塞操作(如连接尝试)的超时(以秒为单位)(如果未指定,将使用全局默认超时设置)。

    l  context:如果指定了context,则它必须是ssl.SSLContext描述各种SSL选项的实例。

    l  cafile和capath:可选的cafile和capath参数为HTTPS请求指定一组可信CA证书。 cafile应指向包含一组 CA证书的单个文件,而capath应指向散列证书文件的目录。

    l  cadefault:该cadefault参数被忽略。

    响应举例:

    import urllib.request  #等价与from urllib import request
    
    response = urllib.request.urlopen("http://www.baidu.com")
    print("查看response响应的类型",type(response))
    page_contect = response.read()
    print(page_contect.decode('utf-8')) 

    执行结果:

    查看response响应的类型 <class 'http.client.HTTPResponse'>
    
    … …

    urlopen 返回一个类文件对象,并提供了如下方法:

    read() , readline() , readlines() , fileno() , close() :这些方法的使用方式与文件对象完全一样; info():返回一个httplib.HTTPMessage对象,表示远程服务器返回的头信息;可以通过Quick Reference to Http Headers查看 Http Header 列表。 getcode():返回Http状态码。如果是http请求,200表示请求成功完成;404表示网址未找到; geturl():返回获取页面的真实 URL。在 urlopen(或 opener 对象)可能带一个重定向时,此方法很有帮助。获取的页面 URL 不一定跟真实请求的 URL 相同。

    实例:

    import urllib.request
    
    response = urllib.request.urlopen('https://python.org/')
    print("查看 response 的返回类型:",type(response))
    print("查看反应地址信息: ",response)
    print("查看头部信息1(http header):
    ",response.info())
    print("查看头部信息2(http header):
    ",response.getheaders())
    print("输出头部属性信息:",response.getheader("Server"))
    print("查看响应状态信息1(http status):
    ",response.status)
    print("查看响应状态信息2(http status):
    ",response.getcode())
    print("查看响应 url 地址:
    ",response.geturl())
    page = response.read()
    print("输出网页源码:",page.decode('utf-8'))

    结果自行验证哦

    data参数的使用

    import urllib.parse
    import urllib.request
    import json
    
    translation = input('输入要翻译的文字:')
    url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
    data = {}
    data['i'] = translation
    data['doctype'] = 'json'
    data = bytes(urllib.parse.urlencode(data),encoding='utf-8')
     
    response = urllib.request.urlopen(url,data)
    response_new = response.read().decode('utf-8')
    
    response_new_dict = json.loads(response_new)   #将str转换为dict
    
    print('翻译为:{}'.format(response_new_dict['translateResult'][0][0]['tgt']))
    print(response_new_dict['translateResult'][0][0]['tgt'])

    这里就用到urllib.parse,通过bytes(urllib.parse.urlencode())可以将post数据进行转换放到urllib.request.urlopen的data参数中。这样就完成了一次post请求。
    所以如果我们添加data参数的时候就是以post请求方式请求,如果没有data参数就是get请求方式

    timeout参数的使用

    在某些网络情况不好或者服务器端异常的情况会出现请求慢的情况,或者请求异常,所以这个时候我们需要给

    请求设置一个超时时间,而不是让程序一直在等待结果。例子如下:

    import urllib.request
    
    response = urllib.request.urlopen('http://httpbin.org/get', timeout=1)
    print(response.read())

    运行之后我们看到可以正常的返回结果,接着我们将timeout时间设置为0.1

    以下程序为对异常的抓取:

    import socket
    import urllib.request
    import urllib.error 
    
    try:
        response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.1)
    except urllib.error.URLError as e:
        if isinstance(e.reason, socket.timeout):
            print('TIME OUT')

    (2)urllib.request.Request(防止被浏览器过滤)

    urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

    使用request()来包装请求,再通过urlopen()获取页面。单纯使用 urlopen 并不能足以构建一个完整的请求,例如: 对拉勾网的请求如果不加上 headers 等信息,就无法正常解析访问网页内容。

    import urllib.request
    
    url = "https://www.lagou.com/zhaopin/Python/?labelWords=label"
    
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36',
        'Referer': 'https://www.lagou.com/zhaopin/Python/?labelWords=label',
        'Connection': 'keep-alive'
    }
    
    req = request.Request(url, headers=headers)
    page = request.urlopen(req).read()
    page = page.decode('utf-8')
    print(page)

    headers 的参数设置:

    User-Agent :这个头部可以携带如下几条信息:浏览器名和版本号、操作系统名和版本号、默认语言。这个数据可以从 网页开发工具上的请求反应信息中获取(浏览器上一般按 F12 打开开发工具)。作用是用于伪装浏览器。

    Referer:可以用来防止盗链,有一些网站图片显示来源 https://*.com ,就是检查 Referer 来鉴定的。

    Connection:表示连接状态,记录 Session 的状态。

    origin_req_host:请求方的 host 名称或者 IP 地址。

    unverifiable:指请求无法验证,默认为 False。用户并没有足够的权限来选择接收这个请求结果,例如请求一个 HTML 文档中的图片,但没有自动抓取图像的权限,这时 unverifiable 为 True。

    method:指定请求使用的方法,例如 GET、POST、PUT 等。 

    设置Headers(有两种设置方法)
    有很多网站为了防止程序爬虫爬网站造成网站瘫痪,会需要携带一些headers头部信息才能访问,最长见的有user-agent参数

    import urllib.parse
    import urllib.request
    import json
    
    translation = input('输入要翻译的文字:')
    url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
    
    第一种添加请求头部的方式
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'}
    data = {}
    data['i'] = translation
    data['doctype'] = 'json'
    data = bytes(urllib.parse.urlencode(data),encoding='utf-8')
    
    req = urllib.request.Request(url=url, data=data, headers=headers, method='POST')
    
    #第二种添加请求头部的方式
    #req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36')
    
    response = urllib.request.urlopen(req)
    
    # response = urllib.request.urlopen(url,data,timeout=1,headers=headers,methon='POST')  #报错由于urlopen中无headers方法,所有我们采用Request()
    
    response_new = response.read().decode('utf-8')
    
    response_new_dict = json.loads(response_new)   #将str转换为dict
    
    print('翻译为:{}'.format(response_new_dict['translateResult'][0][0]['tgt']))
    print(response_new_dict['translateResult'][0][0]['tgt']) 

    代理(使用代理IP,可用多个): 

    import urllib.request
    
    url='http://www.whatismyip.com.tw'
    
    iplist=['']#+
    
     
    #proxy_support = urllib.request.ProxyHandler({'http':'196.168.0.100:808'})
    
    proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})  #代理第一步
    
    opener=urllib.request.build_opener(proxy_support) #代理第二步
    
    opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36')]
    
    urllib.request.install_opener(opener)  #代理第三步
    
    response=urllib.request.urlopen(url)
    html=response.read().decode('utf-8')
    print(html)

    睡眠(引入time模块,模仿真实用户):

    import urllib.parse
    import urllib.request
    import json
    import time
    
    while True:
        translation = input('输入要翻译的文字:')
        if translation =='q!':#+
            break#+
        url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
        # headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'}
        data = {}
        data['i'] = translation
        data['doctype'] = 'json'
        data = bytes(urllib.parse.urlencode(data),encoding='utf-8')
    
        req = urllib.request.Request(url=url, data=data, method='POST')
    
        req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36')
    
        response = urllib.request.urlopen(req)
    
        # response = urllib.request.urlopen(url,data,timeout=1,headers=headers,methon='POST')
        response_new = response.read().decode('utf-8')
        response_new_dict = json.loads(response_new)   #将str转换为dict
    
        print('翻译为:{}'.format(response_new_dict['translateResult'][0][0]['tgt']))
        print(response_new_dict['translateResult'][0][0]['tgt'])
        time.sleep(5)#

    (3)urllib.request.install_opener(opener

    安装一个 OpenerDirector实例作为全球默认的opener 。如果你想让 urlopen 使用这个opener,那么安装一个opener是必要的;否则可以简单地调用OpenerDirector.open()而不是urlopen()。这样代码不会检查一个真实的 OpenerDirector 并且任何类的适当的接口都可以运作。

    (4)urllib.request.build_opener([ handler,... ] )

    返回一个OpenerDirector实例,它按照给定的顺序链接处理程序。handlers可以是或者是BaseHandler子类的实例BaseHandler(在这种情况下,必须可以在没有任何参数的情况下调用构造函数)。以下类的实例将在前面的处理程序:ProxyHandler(如果检测到代理设置), ,UnknownHandler,HTTPHandler, HTTPDefaultErrorHandler,HTTPRedirectHandler, FTPHandler,。FileHandlerHTTPErrorProcessor

    如果Python安装具有SSL支持(即,如果ssl可以导入模块),HTTPSHandler也将添加。

    一个BaseHandler子类,还可以改变其handler_order 属性,修改其在处理程序列表中的位置。

    (5)urllib.request.pathname2url(path

    将路径名路径从路径的本地语法转换为URL路径组件中使用的表单。这不会产生完整的URL。返回值已使用该quote()函数引用。

    (6)urllib.request.url2pathname(path

    将路径组件路径从百分比编码的URL 转换为路径的本地语法。这不接受完整的URL。此函数用于 unquote()解码路径。

    (7)urllib.request.getproxies()

    此帮助程序函数返回代理服务器URL映射的方案字典。它<scheme>_proxy首先针对所有操作系统扫描环境中的变量名称(不区分大小写),当它找不到它时,从Mac OS X的Mac OSX系统配置和Windows的Windows系统注册表中查找代理信息。如果小写和大写环境变量都存在(并且不同意),则首选小写。 

    注意 如果REQUEST_METHOD设置了环境变量(通常表示您的脚本在CGI环境中运行),则将忽略环境变量HTTP_PROXY(大写_PROXY)。这是因为客户端可以使用“Proxy:”HTTP标头注入该变量。如果需要在CGI环境中使用HTTP代理,请ProxyHandler显式使用 ,或确保变量名称为小写(或至少为_proxy后缀)。

    2、urllib.error

    urllib.error模块定义了引发的异常的异常类urllib.request。基本异常类是URLError。

    3、urllib.parse

    URL解析功能侧重于将URL字符串拆分为其组件,或者将URL组件组合为URL字符串。

    (1)urllib.parse.urlparse

    urllib.parse.urlparse(urlstring, scheme=”, allow_fragments=True)

    函数用于将一个URL解析成六个部分,返回一个元组,URL的格式为:scheme://netloc/path;parameters?query#fragment;包含六个部分,元组中每一个元素都是一个字符串,可以为空,这六个部分均不能再被分割成更小的部分;

    以下为返回的元组元素:

    属性

    指数

    价值,如果不存在

    scheme

    0

    URL方案说明符

    方案参数

    netloc

    1

    网络位置部分

    空字符串

    path

    2

    分层路径

    空字符串

    query

    3

    查询组件

    空字符串

    fragment

    4

    片段标识符

    空字符串

    username

     

    用户名

    None

    password

     

    密码

    None

    hostname

     

    主机名(小写)

    None

    port

     

    端口号为整数(如果存在)

    None

    示例如下:

    import urllib.parse
    
    print(urllib.parse.urlparse('http://www.baidu.com'))

    输出结果:

    ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='', fragment='')

    (2)urllib.parse.parse_qs

    urllib.parse.parse_qs(qs, keep_blank_values=False, strict_parsing=False, encoding=’utf-8’, errors=’replace’)

    这个函数主要用于分析URL中query组件的参数,返回一个key-value对应的字典格式;

    示例如下:

    import urllib.parse
    
    print(urllib.parse.parse_qs("FuncNo=9009001&username=1"))

    输出结果:

    {'FuncNo': ['9009001'], 'username': ['1']}

    (3)urllib.parse.parse_qsl

    urllib.parse.parse_qsl(qs, keep_blank_values=False, strict_parsing=False, encoding=’utf-8’, errors=’replace’)

    这个函数和urllib.parse.parse_qs()作用一样,唯一的区别就是这个函数返回值是list形式;

    示例如下:

    import urllib.parse
    
    print(urllib.parse.parse_qsl("FuncNo=9009001&username=1"))

    输出结果

    [('FuncNo', '9009001'), ('username', '1')]

    (4)urllib.parse.urlunparse(parts)

    这个函数可以将urlparse()分解出来的元组组装成URL;

    示例如下:

    import urllib.parse
    
    parsed=urllib.parse.urlparse("https://www.zhihu.com/question/50056807/answer/223566912")
    print(parsed)
    
    t=parsed[:]
    print(urllib.parse.urlunparse(t))

    输出结果:

    ParseResult(scheme='https', netloc='www.zhihu.com', path='/question/50056807/answer/223566912', params='', query='', fragment='')

    https://www.zhihu.com/question/50056807/answer/223566912

    (5) urllib.parse.urlsplit

    urllib.parse.urlsplit(urlstring, scheme=”, allow_fragments=True)

    这个函数和urlparse()功能类似,唯一的区别是这个函数不会将url中的param分离出来;就是说相比urlparse()少一个param元素,返回的元组元素参照urlparse()的元组表,少了一个param元素;

    示例如下:

    import urllib.parse
    
    print(urllib.parse.urlsplit("https://www.zhihu.com/question/50056807/answer/223566912"))

    输出结果:

    SplitResult(scheme='https', netloc='www.zhihu.com', path='/question/50056807/answer/223566912', query='', fragment='')

    (6)urllib.parse.urlunsplit(parts)

    与urlunparse()相似,切与urlsplit()相对应;

    示例如下:

    import urllib.parse
    
    parsed=urllib.parse.urlsplit("https://www.zhihu.com/question/50056807/answer/223566912")
    t=parsed[:]
    print(urllib.parse.urlunsplit(t))

    输出结果:

    https://www.zhihu.com/question/50056807/answer/223566912

    (7)urllib.parse.urljoin(base, url, allow_fragments=True)

    这个函数用于讲一个基本的URL和其他的URL组装成成一个完成的URL;

    示例如下:

    import urllib.parse
    
    print(urllib.parse.urljoin("https://www.baidu.com/Python.html","Java.html")) 

    输出结果:

    https://www.baidu.com/Java.html

    注意:如果URL是一个抽象的URL(例如以“//”或“scheme://”开头),这个URL的主机名或请求标识会自动返回;

    示例如下:

    import urllib.parse
    
    print(urllib.parse.urljoin("https://www.baidu.com/Python.html","//www.zhihu.com/Java.html"))

    输出结果:

    https://www.zhihu.com/Java.html

    (8)urllib.parse.urldefrag(url)

    如果URL中包含fragment标识,就会返回一个不带fragment标识的URL,fragment标识会被当成一个分离的字符串返回;如果URL中不包含fragment标识,就会返回一个URL和一个空字符串;

    示例如下:

    import urllib.parse
    
    print(urllib.parse.urldefrag("http://user123:pwd@NetLoc:80/path;param?query=arg#frag"))
    
    print(urllib.parse.urldefrag("http://user123:pwd@NetLoc:80/path;param?query=arg"))

    输出结果:

    DefragResult(url='http://user123:pwd@NetLoc:80/path;param?query=arg', fragment='frag')

    DefragResult(url='http://user123:pwd@NetLoc:80/path;param?query=arg', fragment='')

    4、urllib.robotparser

    此模块提供单个类,RobotFileParser用于回答有关特定用户代理是否可以在发布该robots.txt文件的网站上获取URL的问题。

  • 相关阅读:
    HTTP请求 GET POST 网络编程实现(转)
    较老版本 AFNetworking 使用心得
    优秀java开源项目与解决方案推荐与概论
    URL的格式scheme
    用MATLAB实现字符串分割
    matlab search path
    matlab中的字符串数组与函数调用
    全新重装win8.1系统后 配置开发及办公环境步骤
    html图片上下翻滚展示代码
    html目录树的操作
  • 原文地址:https://www.cnblogs.com/pinpin/p/10243237.html
Copyright © 2020-2023  润新知