1. 通过订阅号/服务号采集
1.1 流程简介
1)采集入口:登录订阅号/服务号后,依次点击“素材管理 – 新建图文消息 – 超链接”;
2)反爬措施:需要登录后的cookie和登录后地址栏中token值,cookie有效期为一天。
1.2实现简单描述
注册多个订阅号/服务号,建立cookie池,随机选取一个账号的cookie和token,通过请求公众号列表页面获得详情页url,然后再访问详情页时不需要cookie和token即可获取到数据。
1.3 优缺点
优点
Ÿ 不需要关注目标公众号;
Ÿ 实时性较好,每次请求目标公众号列表数据时均能获取到最新数据;
Ÿ 方便获取历史数据(请求列表页的url有翻页参数)。
缺点/风险
Ÿ 因为订阅号登陆后cookie有效期为一天,需要每天登陆获取cookie和token。
Ÿ 订阅号/服务号的注册是需要个人/企业认证,存在微信可能记录我们的浏览记录。