接着昨天的思路,继续分析,要想获取信息,就要抓获xhr中js请求。
如图:
1.明显可以看的出request url 是由若干参数拼接而成。
2._token 参数很显而易见 是个重要的请求参数,而且在一段时间内是变化的,是有一定的时效期,由请求数据时生成。
本来是想着去获取参数模拟请求url,为了少走弯路,也百度了他人的一些建议,想要获取参数,需要破解其js加密算法,看其是如何生成的。
由此可见,网站直接去采集请求是行不通的,只能另寻它路,总归会有解决的办法,只是目前自己的能力还不够,需要多去思考。
问题:之前采集工商信息数据也是,对天眼查、企查查、启信宝、这些网站直接访问采集是行不通的,只能找其他的接口去采集,采集手机端接口网站,因为其反爬会少一些。
解决:访问https://i.meituan.com/ 手机端接口网站
点击美食,加载数据,控制台情况如下:
请求头设置:
参数设置:
多拖动滑动条,发现 offset发生变化,每次刷新加载15条数据。但是这里呢,还是出现了一些问题,还没有开始爬数据,只是简单地测试加载数据就出现了验证码的问题,
因此要像爬房产信息那样,虽然数据有很多,但是只给你返回100页数据,要想获取全部数据就要进行分类抓,不能抓取全部商品。
拿第一个数据为例:
点击进入店铺:
http://meishi.meituan.com/i/poi/182184268?ct_poi=214211849171754862311089403833099184593_a182184268_c0_e68113015781879163
http://meishi.meituan.com/i/poi/182184268?ct_poi=214211849171754862311089403833099184593_a182184268_c0_e68113015781879163
可以发现url是拼接而成的,两个重要参数 poiid /和 ct_poi
好了今天就先分析到这里,想要获取详情店铺数据就需要先获取其 poid和ct_poi参数,然后再配置其需要修改的相关参数就能正确采集到信息。