爬取某东页面信息的代码:
#全代码 import requests url='https://item.jd.com/6008133.html' try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print (r.text[:1000]) except: print('爬取失败')
爬取Amazon某页面信息:
import requests url='https://www.amazon.cn/dp/B00E192518/' try: kv={'user-agent':'Mozilla/5.0'}#在这一行定义一个字典,用于修改headers r=requests.get(url,headers=kv)#将爬虫伪装成一个浏览器,这里针对的是Amazon网站的第一种反爬虫措施 r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[1000:2000]) except: print('爬取失败')