• Requests库使用的简单实例


      1、爬取单个京东商品信息实例

    import requests
    url = 'https://item.jd.com/26809739632.html'
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        print((r.text[:1000]))
    except:
        print('爬取失败!')

      2、爬取单个亚马逊商品信息实例

      在引用爬取京东商品信息实例的代码时出现错误,例如我的r.status_code不是200,而是504,则是申请访问失败

      通过查看headers时会发现'User-Agent': 'python-requests/2.22.0',这就是告诉亚马逊网站我是通过python的requests库访问你的,而亚马逊网站不支持这样访问

      故我们要通过浏览器去访问亚马逊网站,从而我们需要修改'User-Agent'后面的内容,采用如下方法:

    import requests
    url ='https://www.amazon.cn/gp/product/B07S8VZ8HL'
    try:
        # Mozilla/5.0标准的浏览器身份标识字段
        kv = {'user-agent': 'Mozilla/5.0'}
        r = requests.get(url,headers=kv)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        # print(r.request.headers)
        print(r.text[1000:2000])
    except:
        print('爬取失败!')

      3、百度搜索关键词

    import requests
    keyword = 'Python'
    try:
        #修改键值对
        kv = {'wd':keyword}
        r = requests.get('http://www.baidu.com/s',params=kv)
        print(r.request.url)
        r.raise_for_status()
        print(len(r.text))
    except:
        print('爬取失败!')

      4、爬取网页图片并存储

    import requests
    import os
    url = 'http://image.ngchina.com.cn/userpic/99679/2019/0615112328996793386.jpeg'
    root = 'E://pics//'
    path = root + url.split('/')[-1]
    try:
    #如果根目录上没有这个文件夹,那么就创建一个
        if not os.path.exists(root):
            os.mkdir(root)
        if not os.path.exists(path):
            r = requests.get(url)
            with open(path,'wb') as f:
                f.write(r.content)
                f.close()
                print('文件保存成功!')
        else:
            print('文件已存在')
    except:
        print('爬取失败!')
  • 相关阅读:
    为archlinux安装mplayer
    linux与windows的文本文件之间的转换
    有关git的换行符的处理问题
    让git忽略文件模式的改变
    linux更新系统之后,删除多余的开机启动项
    关于centos更新后virtualbox无法使用的问题
    SQL 中逻辑运算符的优先级
    archlinux安装输入法需要的包及archlinux无法使用输入法的解决
    从前有座山,山里有座庙
    批量修改照片名称的shell脚本
  • 原文地址:https://www.cnblogs.com/fb1704011013/p/11107968.html
Copyright © 2020-2023  润新知