• 请求库之requests


    一、介绍

    # 介绍:使用requests可以模拟浏览器使用

    # 安装:pip3 install requests

    # 各种请求的方式:常用requests.get()和requests.post()

    二、基于GET请求

    1.基本请求

    import requests
    # res=requests.get('https://www.baidu.com')
    # #指定编码
    # res.encoding='utf-8'
    # print(res.text)  #响应内容标签

    2.带参数的GET请求 - >params

    # User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36
    # res=requests.get('https://www.baidu.com/s',
    #                  params={'wd':"美女"},
    #                  #请求头的信息
    #                  headers={
    #                      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    #                  }
    #                  )
    # res.encoding='utf-8'
    # print(res.text)  #响应内容
    # with open("a.html",'w') as f:
    #     f.write(res.text)

    3.参数的作用get请求:headers请求头(header):

        cookie
    User-agent(客户端是什么window,安卓)
    Referer: 访问过来之前的网站
    4.带参数的get请求:cookie
    # wd='egon老师'
    # pn=1
    #
    # response=requests.get('https://www.baidu.com/s',
    #                       params={
    #                           'wd':wd,
    #                           'pn':pn
    #                       },
    #                       headers={
    #                         'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
    #
    #                       },
    #                         cookies="cookie信息"
    #                       ),
    #
    # res2=response.text
    # print(res2)

    三、基于post请求

     params 是拼在get请求后的
    # data:是post请求boyd体中的内容
    # requests.post('http://httpbin.org/post',
    # data={''})

    # 模拟登录某网站
    # headers = {
    #     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
    #     'Referer': 'http://www.aa7a.cn/user.php?&ref=http%3A%2F%2Fwww.aa7a.cn%2F',
    # }
    # res = requests.post('http://www.aa7a.cn/user.php',
    #                     headers=headers,
    #                     data={
    #                         'username': '616564099@qq.com',
    #                         'password': 'lqz123',
    #                         'captcha': 'pnz4',
    #                         'remember': 1,
    #                         'ref': 'http://www.aa7a.cn/',
    #                         'act': 'act_login'
    #                     }
    #                     )
    # #如果登录成功,cookie会存在于res对象中
    # cookie=res.cookies.get_dict()
    #
    # #向首页发送get请求
    # res=requests.get('http://www.aa7a.cn/',headers=headers,
    #                  cookies=cookie,
    #                  )
    #
    # if '616564099@qq.com' in res.text:
    #     print("登录成功")
    # else:
    #     print("没有登录")

    四、响应Response

    1.response属性

    import requests
    respone=requests.get('http://www.jianshu.com')
    # respone属性
    print(respone.text)  # 访问页面标签
    print(respone.content) # 响应内容
    
    print(respone.status_code) # 响应状态码
    print(respone.headers) # 响应头
    print(respone.cookies) 
    print(respone.cookies.get_dict())
    print(respone.cookies.items())
    
    print(respone.url)
    print(respone.history)
    
    print(respone.encoding)
    
    #关闭:response.close()
    from contextlib import closing
    with closing(requests.get('xxx',stream=True)) as response:
        for line in response.iter_content():  # 视频内容
        pass

    2、编码问题

    #编码问题
    import requests
    response=requests.get('http://www.autohome.com/news')
    # response.encoding='utf8' #汽车之家网站返回的页面内容为gb2312编码的,而requests的默认编码为ISO-8859-1,如果不设置成gbk则中文乱码
    print(response.text)

    3、获取二进制数据

    复制代码
    import requests
    
    response=requests.get('https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1509868306530&di=712e4ef3ab258b36e9f4b48e85a81c9d&imgtype=0&src=http%3A%2F%2Fc.hiphotos.baidu.com%2Fimage%2Fpic%2Fitem%2F11385343fbf2b211e1fb58a1c08065380dd78e0c.jpg')
    
    with open('a.jpg','wb') as f:
        f.write(response.content)
    复制代码
    复制代码
    #stream参数:一点一点的取,比如下载视频时,如果视频100G,用response.content然后一下子写到文件中是不合理的
    
    import requests
    
    response=requests.get('https://gss3.baidu.com/6LZ0ej3k1Qd3ote6lo7D0j9wehsv/tieba-smallvideo-transcode/1767502_56ec685f9c7ec542eeaf6eac93a65dc7_6fe25cd1347c_3.mp4',
                          stream=True)
    
    with open('b.mp4','wb') as f:
        for line in response.iter_content():
            f.write(line)
    复制代码

    4、解析json

    #解析json
    import requests
    response=requests.get('http://httpbin.org/get')
    
    import json
    res1=json.loads(response.text) #太麻烦
    
    res2=response.json() #直接获取json数据
    
    
    print(res1 == res2) #True

    五 高级用法

    1、SSL Cert Verification

    #证书验证(大部分网站都是https)
    import requests
    respone=requests.get('https://www.12306.cn') #如果是ssl请求,首先检查证书是否合法,不合法则报错,程序终端
    
    
    #改进1:去掉报错,但是会报警告
    import requests
    respone=requests.get('https://www.12306.cn',verify=False) #不验证证书,报警告,返回200
    print(respone.status_code)
    
    
    #改进2:去掉报错,并且去掉警报信息
    import requests
    from requests.packages import urllib3
    urllib3.disable_warnings() #关闭警告
    respone=requests.get('https://www.12306.cn',verify=False)
    print(respone.status_code)
    
    #改进3:加上证书
    #很多网站都是https,但是不用证书也可以访问,大多数情况都是可以携带也可以不携带证书
    #知乎百度等都是可带可不带
    #有硬性要求的,则必须带,比如对于定向的用户,拿到证书后才有权限访问某个特定网站
    import requests
    respone=requests.get('https://www.12306.cn',
                         cert=('/path/server.crt',
                               '/path/key'))
    print(respone.status_code)
    View Code

    2、使用代理

    #官网链接: http://docs.python-requests.org/en/master/user/advanced/#proxies
    
    #代理设置:先发送请求给代理,然后由代理帮忙发送(封ip是常见的事情)
    import requests
    proxies={
        'http':'http://egon:123@localhost:9743',#带用户名密码的代理,@符号前是用户名与密码
        'http':'http://localhost:9743',
        'https':'https://localhost:9743',
    }
    respone=requests.get('https://www.12306.cn',
                         proxies=proxies)
    
    print(respone.status_code)
    
    
    
    #支持socks代理,安装:pip install requests[socks]
    import requests
    proxies = {
        'http': 'socks5://user:pass@host:port',
        'https': 'socks5://user:pass@host:port'
    }
    respone=requests.get('https://www.12306.cn',
                         proxies=proxies)
    
    print(respone.status_code)
    View Code

    3、超时设置

    #超时设置
    #两种超时:float or tuple
    #timeout=0.1 #代表接收数据的超时时间
    #timeout=(0.1,0.2)#0.1代表链接超时  0.2代表接收数据的超时时间
    
    import requests
    respone=requests.get('https://www.baidu.com',
                         timeout=0.0001)
    View Code

    4、 认证设置

    #官网链接:http://docs.python-requests.org/en/master/user/authentication/
    
    #认证设置:登陆网站是,弹出一个框,要求你输入用户名密码(与alter很类似),此时是无法获取html的
    # 但本质原理是拼接成请求头发送
    #         r.headers['Authorization'] = _basic_auth_str(self.username, self.password)
    # 一般的网站都不用默认的加密方式,都是自己写
    # 那么我们就需要按照网站的加密方式,自己写一个类似于_basic_auth_str的方法
    # 得到加密字符串后添加到请求头
    #         r.headers['Authorization'] =func('.....')
    
    #看一看默认的加密方式吧,通常网站都不会用默认的加密设置
    import requests
    from requests.auth import HTTPBasicAuth
    r=requests.get('xxx',auth=HTTPBasicAuth('user','password'))
    print(r.status_code)
    
    #HTTPBasicAuth可以简写为如下格式
    import requests
    r=requests.get('xxx',auth=('user','password'))
    print(r.status_code)
    View Code

    5、异常处理

    #异常处理
    import requests
    from requests.exceptions import * #可以查看requests.exceptions获取异常类型
    
    try:
        r=requests.get('http://www.baidu.com',timeout=0.00001)
    except ReadTimeout:
        print('===:')
    # except ConnectionError: #网络不通
    #     print('-----')
    # except Timeout:
    #     print('aaaaa')
    
    except RequestException:
        print('Error')
    View Code

    6、上传文件

    import requests
    files={'file':open('a.jpg','rb')}
    respone=requests.post('http://httpbin.org/post',files=files)
    print(respone.status_code)

     7. jmter 压力测试工具

  • 相关阅读:
    COOKIE和SESSION有什么区别?
    JSP中三大指令
    JSP中out.print()、out.println()以及out.write()的区别
    Linux实战教学笔记06:Linux系统基础优化
    Linux实战教学笔记05:远程SSH连接服务与基本排错(新手扫盲篇)
    Linux实战教学笔记04:Linux命令基础
    Linux实战教学笔记03:操作系统发展历程及系统版本选择
    Linux实战教学笔记02:计算机系统硬件核心知识
    Linux实战教学笔记01:计算机硬件组成与基本原理
    从零开始学Python第八周:网络编程基础(socket)
  • 原文地址:https://www.cnblogs.com/wukai66/p/11935857.html
Copyright © 2020-2023  润新知