第一课：网络爬虫准备

　　9、proxies:字典类型，设定访问代理服务器，可以增加登录认证

2、requests.get(url,params=None,**kwargs):获取HTML页面的主要方法，对应HTTP的GET

　　1、r.status_code:HTTP请求的返回状态，200表示连接成功，404表示失败或者其他

　　2、r.text:HTTP响应内容的字符串形式，即url对应的页面内容

　　4、r.apparent_encoding:从内容中分析出的响应内容编码方式（备选编码方式）

3、requests.head(url,**kwargs(13个参数)):获取HTML页面的头部信息方法，对应HTTP的HEAD

4、requests.post(url,data=None,json=None,**kwargs(11个可选参数)):向HTML页面提交POST请求方法，对应HTTP的POST

5、requests.put(url,data=None,**kwargs(12可选参数)):向HTML页面提交PUT请求方法，对应HTTP的PUT

　　put方法与post方法一样，区别在于put方法会把原有数据覆盖

6、requests.patch(url,data=None,**kwargs(12可选参数)):向HTML页面提交局部修改请求方法，对应HTTP的PATCH

7、requests.delete(url,**kwargs(13个可选参数)):向HTML页面提交删除请求方法，对应HTTP的DELETE

三、Requests库的异常

r.raise_for_status():Requests异常方法，返回200则抓取正常，如果不是200，产生异常requests.HTTPError

四、爬虫网页的通用代码框架

五、HTTP协议：Hypertext Transfer Protocol,超文本传输协议

　HTTP是一个基于'请求与响应'模式的、无状态的应用层协议；一般采用URL用为定位网络资源的标识。

六、作业：Requests库的爬取性能分析

尽管Requests库功能很友好、开发简单（其实除了import外只需一行主要代码），但其性能与专业爬虫相比还是有一定差距的。请编写一个小程序，“任意”找个url，测试一下成功爬取100次网页的时间。（某些网站对于连续爬取页面将采取屏蔽IP的策略，所以，要避开这类网站。）

import requests
import time
def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 10)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return 'Error'


if __name__ == '__main__':
    url = 'http://www.bilibili.com'
    print('start the test:')
    start_time = time.clock()
    for i in range(100):
        getHTMLText(url)
    end_time = time.clock()
    print('Total runing time:%s' %(end_time-start_time)) #Total runing time:114.73649717934875

#作业
#1、爬虫京东
import requests
url = 'https://item.jd.com/2357091.html'
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
    print(r.request.headers) #{'User-Agent': 'python-requests/2.13.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
except:
    print('Error')


#2、爬虫amzon
import requests

url = 'https://www.amazon.cn/dp/B004DCV1FO'

try:
    kv = {'User-Agent':'Mozilla/5.0'}
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.status_code)
    print(r.request.headers)
    r = requests.get(url,headers = kv)
    print(r.status_code)
    print(r.request.headers)
except:
    print(r.status_code)
/*
200
{'User-Agent': 'python-requests/2.13.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
200
{'User-Agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
*/

#3、向百度与其360提交搜索关键字
import requests

try:
    r = requests.get('http://www.baidu.com/s',params={'wd':'Python'})
    print(r.request.url) #http://www.baidu.com/s?wd=Python
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(len(r.text))
except:
    print('Error')


import requests

try:
    keyword = 'Python'
    kv = {'q':keyword}
    r = requests.get('https://www.so.com/s',params=kv)
    print(r.request.url) #https://www.so.com/s?q=Python
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(len(r.text))
except:
    print('error')

#作业5查ip归属
import requests

url = 'http://www.ip138.com/ips138.asp?ip='

try:
    r = requests.get(url + '114.116.113.46')
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text)
except:
    print('error')

#4爬取保存图片
import requests
import os

url = 'http://p1.so.qhimgs1.com/bdr/326__/t01d9dff613f7d05381.jpg'
root = 'D://pics//'
path = root + os.path.basename(url) #os.path.basename(path)  返回path最后的文件名。如何path以／或结尾，那么就会返回空值。即os.path.split(path)的第二个元素
#path = root + url.split('/')[-1]
try:
    if not os.path.exists(root): #os.path.exists(path)  如果path存在，返回True；如果path不存在，返回False
        os.mkdir(root)
    if not os.path.exists(path):
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        with open(path,'wb') as f:
            f.write(r.content)
            print('文件保存成功')
    else:
        print('文件存在')
except:
    print('爬取失败')

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接运程服务超时异常
requests.Timeout	请滶URL起时，产生超时异常