在网站中,HTTP请求是无状态的,即:第一次和服务器连接并登录成功后,第二次请求服务器依然不能知道当前请求是来自哪个用户。
cookie的出现解决了这一问题,第一次登陆后服务器会返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求时,就会自动的把上次请求存储的cookie数据自动携带发送给服务器,服务器通过cookie携带的数据信息就能判断当前用户是哪一个。cookie存储的数据量有限,不同的浏览器有不同的存储大小,但一般不会超过4KB。因此,cookie只能存储小量的数据。
cookie的格式:
Set-Cookie: NAME=VALUE; Expires/Max-age=DATE; Path=PATH; Domain=DOMAIN_NAME; SECURE
参数意义:
NAME:cookie的名字;
VALUE:cookie的值;
Expires:cookie的过期时间;
Path:cookie作用的路径;
Domain:cookie作用的域名,即:子域名;
SECURE:是否只在HTTPS协议下起作用。
http.cookiejar模块:
该模块主要的类用Cookie.Jar、FileCookieJar、MozillaCookieJar、LWPCookieJar。这四个类的作用分别如下:
1. CookieJar:管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。
整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失。
2. FileCookieJar (filename.delayload=None, policy=None):从CookieJar派生而来,用来创建FileCookieJar实例,
检索cookie信息并将cookie存储到文件中。filename是存储cookie的文件名。delayload为Ture时支持延迟访问访问文件,
即:只有在需要时才能读取文件或在文件中存储数据。
3. MozillaCookieJar (filename.delayload=None, poliy=None):从FileCookieJar派生而来,创建于Mozilla浏览器cookie.txt
兼容的FileCookieJar实例。
4. LAWPCookieJar (filename.delayload=None, policy=None):从FileCookieJar派生而来,创建与libwww-per标准的
Set-cookie3文件格式兼容的FileCookieJar实例。
from urllib import request from urllib import parse from http.cookiejar import CookieJar ''' 面向过程: # 1.登录 # 1.1 创建一个cookiejar对象 cookiejar = CookieJar() # 1.2 使用cookiejar创建一个HTTPCookieProcess对象 handler = request.HTTPCookieProcessor(cookiejar) # 1.3 使用上一步创建的handle创建一个opener opener = request.build_opener(handler) # 1.4 使用opener发送登录的请求 (登录账号和密码) headers ={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3642.0 Safari/537.36' } data = { '账号':'*****', '密码':'******' } # 登录页面的URL login_url = 'http://www.renren.com/' req = request.Request(login_url,data=parse.unlencode(data).encode('utf-8'),headers=headers) opener.oepn(req) # 2. 访问个人主页,登录后的个人页面 geren_url = 'http://www.renren.com/********' # 获取个人主页的页面时,不要新建一个opener # 而应该使用之前的那个opener, 因为之前的那个opener已经包含了登录所需要的的cookie信息 req = request.Request(geren_url,handlers=headers) resp = opener.open(req) with open('renren.html','w',encoding='utf-8') as fp: fp.write(resp.read().decode('utf-8')) '''
def get_opener(): # 1.1 创建一个cookiejar对象 cookiejar = CookieJar() # 1.2 使用cookiejar创建一个HTTPCookieProcess对象 handler = request.HTTPCookieProcessor(cookiejar) # 1.3 使用上一步创建的handle创建一个opener opener = request.build_opener(handler) return opener def login_renren(opener): # 1.4 使用opener发送登录的请求 (登录账号和密码) data = { '账号': '*****', '密码': '******' } # 登录页面的URL login_url = 'http://www.renren.com/' req = request.Request(login_url, data=parse.unlencode(data).encode('utf-8'), headers=headers) opener.oepn(req) def visit_profile(opener): # 2. 访问个人主页,登录后的个人页面 geren_url = 'http://www.renren.com/********' # 获取个人主页的页面时,不要新建一个opener # 而应该使用之前的那个opener, 因为之前的那个opener已经包含了登录所需要的的cookie信息 req = request.Request(geren_url,handlers=headers) resp = opener.open(req) with open('renren.html','w',encoding='utf-8') as fp: fp.write(resp.read().decode('utf-8')) if __name__=='__main__': opener = get_opener() login_renren(opener) visit_profile(opener)
保存cookie到本地:
保存cookie到本地,可以使用cookiejar的save方法,并且需要指定一个文件名:
from urllib import request from http.cookiejar import MozillaCookieJar cookiejar = MozillaCookieJar('cookie.txt') # 加载Cookie信息 cookiejar.load(ignore_discard=True) handler = request.HTTPCookieProcessor(cookiejar) opener = request.build_opener(handler) headers ={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3642.0 Safari/537.36' } req = opener.open('http://httpbin.org/cookies',handlers=headers) # Resp = opener.open(req)执行完,Cookie信息就过期了。 resp = opener.open(req) print(resp.read()) # Ignore_discard = True :保存即将过期的Cookie信息。 cookiejar.save(ignore_discard=True,ignore_expires=True)