爬虫1

爬取某东页面信息的代码：

#全代码
import requests
url='https://item.jd.com/6008133.html'
try:
    r=requests.get(url)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print (r.text[:1000])
except:
    print('爬取失败')

爬取Amazon某页面信息：

import requests
url='https://www.amazon.cn/dp/B00E192518/'
try:
    kv={'user-agent':'Mozilla/5.0'}#在这一行定义一个字典，用于修改headers
    r=requests.get(url,headers=kv)#将爬虫伪装成一个浏览器，这里针对的是Amazon网站的第一种反爬虫措施
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[1000:2000])
except:
    print('爬取失败')

invictus maneo!

相关阅读:
分享两个你可能不知道的Java小秘密
一次ssl的手动实现——加密算法的简单扫荡
TCP/IP中最高大上的链路层简介（二）
与TCP/IP协议的初次见面（一）
高并发下的九死一生，一个不小心就掉入万丈深渊
杂谈---一个项目经理的自我反省
浅谈程序员的行业选择---程序人生
杂谈---大压力下的工作
一个有意思的需求——中文匹配度
杂谈---一个人的两种心理

原文地址：https://www.cnblogs.com/rayshaw/p/8563865.html