1、爬取单个京东商品信息实例
import requests url = 'https://item.jd.com/26809739632.html' try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding print((r.text[:1000])) except: print('爬取失败!')
2、爬取单个亚马逊商品信息实例
在引用爬取京东商品信息实例的代码时出现错误,例如我的r.status_code不是200,而是504,则是申请访问失败
通过查看headers时会发现'User-Agent': 'python-requests/2.22.0',这就是告诉亚马逊网站我是通过python的requests库访问你的,而亚马逊网站不支持这样访问
故我们要通过浏览器去访问亚马逊网站,从而我们需要修改'User-Agent'后面的内容,采用如下方法:
import requests url ='https://www.amazon.cn/gp/product/B07S8VZ8HL' try: # Mozilla/5.0标准的浏览器身份标识字段 kv = {'user-agent': 'Mozilla/5.0'} r = requests.get(url,headers=kv) r.raise_for_status() r.encoding = r.apparent_encoding # print(r.request.headers) print(r.text[1000:2000]) except: print('爬取失败!')
3、百度搜索关键词
import requests keyword = 'Python' try: #修改键值对 kv = {'wd':keyword} r = requests.get('http://www.baidu.com/s',params=kv) print(r.request.url) r.raise_for_status() print(len(r.text)) except: print('爬取失败!')
4、爬取网页图片并存储
import requests import os url = 'http://image.ngchina.com.cn/userpic/99679/2019/0615112328996793386.jpeg' root = 'E://pics//' path = root + url.split('/')[-1] try: #如果根目录上没有这个文件夹,那么就创建一个 if not os.path.exists(root): os.mkdir(root) if not os.path.exists(path): r = requests.get(url) with open(path,'wb') as f: f.write(r.content) f.close() print('文件保存成功!') else: print('文件已存在') except: print('爬取失败!')