1.美团抓取回顾id是处理的核心问题!!!
2.回顾重点内容
(1)模拟登陆:
--有时我们需要爬取基于当前用户的用户信息(需要登录后才可查看)
--实现流程:
--借助于珠宝工具,抓取点击登录按钮发起的post请求(url,参数(动态参数))
--携带cookie对其他子页面进行请求发送
注意:cookie不止用于登录,有些网站也是需要借助于cookie的比如:雪球网
--cookie:
手动处理:不建议
自动处理:session (和request一样也可以用get和post)
--问题:以后所有的需求都是用session进行请求发送呢?
session模块比requests模块更大,耗费资源大,涉及到cookie用session就行,不涉及到我们就用requests
--代理:就是代理服务器,代理就是利用代理服务器发送请求
--反爬机制有哪些(一般是一下六种):
robots
UA检测
验证码
cookie
禁ip
动态请求参数