• requests库GET


    文档地址:http://docs.python-requests.org/zh_CN/latest/index.html

    import requests
    
    res = requests.get('https://www.baidu.com/')
    # print(type(res.text))
    # print(res.text)
    # print(type(res.content))
    # print(res.content.decode('utf-8'))  # 获取网页源码
    # print(res.url)  # 请求的url
    # print(res.encoding)  # 查看响应头部字符编码
    # print(res.status_code)  # 响应状态码
    
    """
    百度浏览器 查看中国两个字
    """
    param = {
        'wd': '中国',
    }
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/72.0.3626.121 Safari/537.36'
    }
    url = 'https://www.baidu.com/s'
    res = requests.get(url=url, headers=headers, params=param)
    with open('/Users/mac/PycharmProjects/TEST/TEST/爬虫day/file/requests.html', 'w', encoding='utf-8') as f:
        f.write(res.content.decode('utf-8'))
        
    """
    requests 笔记
    
    1,response.text这个是requests,将response.content进行解码的字符串。解码需要指定一个编码方式,request会根据自己的猜测来判断编码的方式。
    所以有时候可能会猜测错误,就会导致解码产生乱码,这个时候就应该使用response.content.decode('utf-8)进行手动解码
    response.content:这个是直接从网络上面抓取的数据,没有经过任何解码,所以是一个bytes类型。其实在硬盘上和在网络上传输的字符串都是bytes类型
    
    """
    
  • 相关阅读:
    oracle权限配置
    oracle锁表处理
    小组成员
    个人项目 Individual Project
    Java单元测试框架 JUnit
    MyEclipse的快捷键大全(超级实用,方便)
    vs2008 连接 vss2005 出现 analyze utility 错误的解决方法
    EXTJS gridpanel 动态设置表头
    IE8不能上网的问题
    一些事件的评论
  • 原文地址:https://www.cnblogs.com/wangyue0925/p/11093985.html
Copyright © 2020-2023  润新知