混合模式
结合二、三两大步,通过模拟点击快速拿到cookie,虽然效率低,但可以减少数据包分析的时间以及解决搞不定ajax登陆验证的烦恼,然后继续用urllib2拼接cookie继续快速获取数据。分下面两步:
a. 从selenium中拿到cookie
b. 添加cookie给urllib2使用
方法1:使用CookieJar,可参考《Creating Custom Cookies for HTTP Requests》
方法2:直接拼凑一个名称是"Cookie"的header。
五、全文总结
本文以python为编程语言介绍了 爬虫登陆验证过程可以使用的两种方法:一个是数据包分析,另外一个是模拟点击。综合考虑开发效率,建议先用模拟点击的方法通过登陆验证,成功拿到 cookie之后,拼凑一个Cookie-header,传递给urllib2进行常规调用。