• requests发送post请求的一些疑点


    前言

    在Python爬虫中,使用requests发送请求,访问指定网站,是常见的做法。一般是发送GET请求或者POST请求,对于GET请求没有什么好说的,而发送POST请求,有很多朋友不是很清楚,主要是因为容易混淆POST提交的方式。今天在微信交流群里,就有朋友遇到了这种问题,特地讲解一下。

    在HTTP协议中,post提交的数据必须放在消息主体中,但是协议中并没有规定必须使用什么编码方式,从而导致了提交方式的不同。服务端根据请求头中的Content-Type字段来获知请求中的消息主体是用何种方式进行编码,再对消息主体进行解析。具体的编码方式包括如下:

    • application/x-www-form-urlencoded:以form表单形式提交数据,最常见也是大家最熟悉的
    • application/json :以json串提交数据。
    • multipart/form-data:上传文件

    下面使用requests来发送上述三种编码的POST请求。

    1.提交Form表单

    requests提交Form表单,一般存在于网站的登录,用来提交用户名和密码。以http://httpbin.org/post 为例,在requests中,以form表单形式发送post请求,只需要将请求的参数构造成一个字典,然后传给requests.post()的data参数即可。代码如下:

    url = 'http://httpbin.org/post'
    d = {'key1': 'value1', 'key2': 'value2'}
    r = requests.post(url, data=d)
    print r.text
    

    输出效果如下:

    {
    "args":{},
    "data":"",
    "files":{},
    "form":{"key1":"value1","key2":"value2"},
    "headers":{"Accept":"*/*","Accept-Encoding":"gzip, deflate",
    "Connection":"close",
    "Content-Length":"23",
    "Content-Type":"application/x-www-form-urlencoded",
    "Host":"httpbin.org",
    "User-Agent":"python-requests/2.12.3"},
    "json":null,
    "origin":"113.140.11.122",
    "url":"http://httpbin.org/post"}
    
    

    httpbin.org网站可以显示你提交请求的内容,大家注意一下输出的"Content-Type":"application/x-www-form-urlencoded",证明这是提交Form的方式。大家在登录一个网站时,可以观察一下Content-Type是什么。

    2.提交json串

    对于提交json串,主要是用于发送ajax请求中,动态加载数据。以拼多多网站为例,加载商品的方式为ajax,商品的内容在响应中。

    下面把请求头和请求实体列举一下:


    一些初学者根据请求头写爬虫,就会犯requests的使用错误。

    错误写法

    import requests
    
    __author__ = 'qiye'
    __date__ = '2018/5/19 21:59'
    
    url = "http://jinbao.pinduoduo.com/network/api/common/goodsList"
    data ={"pageSize":60,"pageNumber":1,"withCoupon":0,"sortType":0}
    headers = {
        'Content-Type':'application/json; charset=UTF-8',
        'Host':'jinbao.pinduoduo.com',
        'Origin':'http://jinbao.pinduoduo.com',
        'Referer':'http://jinbao.pinduoduo.com/',
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Mobile Safari/537.36',
        'Accept': 'application/json, text/javascript, */*; q=0.01',
    
    
    
    }
    r = requests.post(url=url,data =data,headers=headers)
    print(r.text)
    

    打印的内容如下:

    {"success":false,"errorCode":4000000,"errorMsg":"System Error","result":null}
    

    返回出错了,这时候百思不得其解,请求头我都保持一致了呀,'Content-Type':'application/json; charset=UTF-8'都加上了,为什么会出错呀?
    答案在于,你的请求实体的格式错了,服务端无法解码。

    正确写法1

    正确代码是把data进行json编码,再发送。代码如下:

    r = requests.post(url=url,data =json.dumps(data),headers=headers)
    

    这个时候再看一下打印内容,已经正确返回商品内容了。

    {"success":true,"errorCode":1000000,"errorMsg":null,"result":{"total":2271278,"goodsList":[{"goodsId":998422995,"goodsName":"【4液+1器】皎洁电热蚊香液 孕妇宝宝驱蚊儿童婴无味防蚊液体","goodsImageUrl":"http://t11img.yangkeduo.com/images/2018-04-12/0292b5e75053dfa748b9762d3f3e74ef.jpeg","soldQuantity":175,"minGroupPrice":24890,"categoryId":4,"categoryName":"母婴","hasCoupon":true,"couponMinOrderAmount":5000,"couponDiscount":5000,"couponTotalQuantity":5000,"couponRemainQuantity":3940,"couponStartTime":1526572800,"couponEndTime":1527782399,"promotionRate":280},
    ...
    

    正确写法2

    处理将data主动编码为json发送之外,requests还提供了一个json参数,自动使用json方式发送,而且在请求头中也不用显示声明'Content-Type':'application/json; charset=UTF-8'。完整代码如下:

    import requests
    
    __author__ = 'qiye'
    __date__ = '2018/5/19 21:59'
    
    url = "http://jinbao.pinduoduo.com/network/api/common/goodsList"
    data ={"pageSize":60,"pageNumber":1,"withCoupon":0,"sortType":0}
    headers = {
        'Host':'jinbao.pinduoduo.com',
        'Origin':'http://jinbao.pinduoduo.com',
        'Referer':'http://jinbao.pinduoduo.com/',
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Mobile Safari/537.36',
    }
    r = requests.post(url=url,json =data,headers=headers)
    print(r.text)
    

    3.上传文件

    上传文件在爬虫中使用的很少,不过还是使用requests讲解一下使用方式。Content-Type类型为multipart/form-data,以multipart形式发送post请求,只需将一文件传给requests.post()的files参数即可。还是以http://httpbin.org/post 为例,代码如下:

    url = 'http://httpbin.org/post'
    files = {'file': open('upload.txt', 'rb')}
    r = requests.post(url, files=files)
    print(r.text)
    

    4.福利大放送

    关注公众号:七夜安全博客

    • 回复【1】:领取 Python数据分析 教程大礼包
    • 回复【2】:领取 Python Flask 全套教程
    • 回复【3】:领取 某学院 机器学习 教程
    • 回复【4】:领取 爬虫 教程

    知识星球已经30人了,随着人数的增多,价格之后会上涨,越早关注越多优惠。星球的福利有很多:

    • 比如上面的教程,已经提前在知识星球中分享
    • 可以发表一些问题,大家一块解决
    • 我之后写的电子书,录制的教学视频,对于知识星球的朋友都是优惠的(基本上免费)
    • 一些节假日会给大家发个红包或者赠书

  • 相关阅读:
    手动启动log4j|nginx实现http https共存
    java.util.zip.ZipException: invalid LOC header (bad signature)
    Bean property 'transactionManagerBeanName' is not writable or has an invalid set
    rabbitmq启动异常table_attributes_mismatch
    nexus私服快速update index方法
    Spring boot ,dubbo整合异常
    如何编写无须人工干预的shell脚本
    Jenkins构建部署jar/war后,服务无法在后台持续运行的解决方案
    移动端CSS通用样式
    Spring bean的几种装配方式
  • 原文地址:https://www.cnblogs.com/qiyeboy/p/9062667.html
Copyright © 2020-2023  润新知