参考:静觅丨崔庆才的个人博客
项目地址:copywang/spiders_collection
实现功能
- 根据登陆后的cookie制作header,请求搜索微信文章
- url需要使用urlencode拼接
- 使用代理避免IP被封
- 使用pyquery解析得到需要的字段信息
- 爬取文章详情页并存储到MongoDB
步骤
- 制作cookie,拼接URL
- 获取每一页的html代码
- 从每一页的html代码解析得到具体文章的url
- 获取具体文章的url,解析得到需要的信息
收获
- 使用pyquery
- 使用代理IP
- 异常处理