• python3 爬虫学习python爬虫库-requests使用方法详细介绍


    python3 爬虫库requests介绍

    在python3的爬虫库中,requests是日常使用的非常多的第三方库之一。

    # requests库安装命令
    pip install requests                 
    
    # 如果安装超时,可以更换国内源安装,以下为清华源
    pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests   
    requests使用示例
    #导入requests模块
    import requests   
    

    requests.get()方法

    import requests         # 导入requests模块
    url = 'http://www.baidu.com'           # 目标url地址
    re = requests.get(url)          # 发起请求
    print(re)            #输出:<Response [200]>
    
    在上面的示例中,我们使用requests.get()方法发起请求,并把服务器的响应结果存到变量re中,最后输出的结果表示<Response [200]>Response表示响应对象,200表示状态码,即请求成功的意思。

    Response 对象的常用属性
    下方的re为自定义变量

    属性描述
    re.status_code 响应的HTTP状态码
    re.text 响应内容的字符串形式
    re.content 响应内容的二进制形式
    re.encoding 响应内容的编码格式


    requests的常用函数

    1. requests.request(method,url,**kwargs)

    • method:请求方式,对应get/put/post等七种

    • url:拟获取页面的url链接

    • **kwargs:控制访问参数,共13个

    • r=requests.request('GET',url,**kwargs)

    • r=requests.request('HEAD',url,**kwargs)

    • r = requests.request('POST', url, **kwargs)

    • r = requests.request('PUT', url, **kwargs)

    • r = requests.request('PATCH', url, **kwargs)

    • r = requests.request('delete', url, **kwargs)

    • r = requests.request('OPTIONS', url, **kwargs)

    • **kwargs:控制访问参数,为可选项

    • params : 字典或字节序列,作为参数增加到url中

    • data : 字典、字节序列或文件对象,作为Request的内容

    • json : JSON格式的数据,作为Request的内容

    • headers : 字典,HTTP定制头

    • cookies : 字典或CookieJar,Request中的auth : 元组支持HTTP认证功能

    • files : 字典类型,传输文件

    • timeout : 设定超时时间,秒为单位

    • proxies : 字典类型,设定访问代理服务器,可以增加登录认证

    • allow_redirects : True/False,默认为True,重定向开关

    • stream : True/False,默认为True,获取内容立即下载开关

    • verify : True/False,默认为True,认证SSL证书开关

    • cert : 本地SSL证书

    • auth : 元组,支持HTTP认证功能

    2. requests.get(url,params=None,**kwargs)

    • url : 拟获取页面的url链接

    • params : url中的额外参数,字典或字节流格式,可选

    • **kwargs: 12个控制访问的参数

    3. requests.head(url,**kwargs)

    • url : 拟获取页面的url链接

    • **kwargs: 12个控制访问的参数(除params)

    4. requests.post(url,data=None,json=None,**kwargs)

    • url : 拟更新页面的url链接

    • data : 字典、字节序列或文件,Request的内容

    • json : JSON格式的数据,Request的内容

    • **kwargs: 11个控制访问的参数(除data,json)

    5. requests.put(url,data=None,**kwargs)

    • url : 拟更新页面的url链接

    • data : 字典、字节序列或文件,Request的内容

    **kwargs: 12个控制访问的参数(除data)

    6. requests.patch(url,data=None,**kwargs)

    • url : 拟更新页面的url链接

    • data : 字典、字节序列或文件,Request的内容

    • **kwargs: 12个控制访问的参数(除data)

    7. requests.delete(url,**kwargs)

    • url : 拟删除页面的url链接

    • **kwargs: 13个控制访问的(同1)

  • 相关阅读:
    MyBatis使用总结
    RPC与RMI的区别
    Python Web-第五周-Web Services and XML(Using Python to Access Web Data)
    Python Web-第四周-Programs that Surf the Web(Using Python to Access Web Data)
    Python Web-第三周-Networks and Sockets(Using Python to Access Web Data)
    Python Web-第二周-正则表达式(Using Python to Access Web Data)
    DELL XPS 13 9350 装Win7系统(坑爹)
    手心输入法皮肤制作技巧
    请对照这二十四条逻辑谬误自行打脸(转自知乎谢熊猫专栏)
    Aspose实现Office转PDF (ASP.NET)
  • 原文地址:https://www.cnblogs.com/aichila/p/13039991.html
Copyright © 2020-2023  润新知