【学习】06 爬虫使用代理地址爬取搜狗微信文章 - 润新知

【学习】06 爬虫使用代理地址爬取搜狗微信文章
参考：静觅丨崔庆才的个人博客

项目地址：copywang/spiders_collection

实现功能
1. 根据登陆后的cookie制作header，请求搜索微信文章
2. url需要使用urlencode拼接
3. 使用代理避免IP被封
4. 使用pyquery解析得到需要的字段信息
5. 爬取文章详情页并存储到MongoDB
步骤
1. 制作cookie，拼接URL
2. 获取每一页的html代码
3. 从每一页的html代码解析得到具体文章的url
4. 获取具体文章的url，解析得到需要的信息
收获
1. 使用pyquery
2. 使用代理IP
3. 异常处理
相关阅读:
<转>iOS SDK中使用NSXMLParser解析XML
[原创]闲来无事，写了个c#的数据库附加工具，现附上源代码
 [转载]php数组操作foreach、each、reset、list
[原创]xml序列化
 [原创]一个简单的药店用的会员积分管理系统
 [原创]我的cms项目
 简洁、标准的对联广告代码
 C#混淆 xenocode使用说明
 .net 随机数
 [原创]c# as用法
原文地址：https://www.cnblogs.com/copywang/p/7894522.html

Copyright © 2020-2023 润新知