• 28.分析采集美团网站信息-2


    接着昨天的思路,继续分析,要想获取信息,就要抓获xhr中js请求。
    如图:


    1.明显可以看的出request url 是由若干参数拼接而成。
    2._token 参数很显而易见 是个重要的请求参数,而且在一段时间内是变化的,是有一定的时效期,由请求数据时生成。

    本来是想着去获取参数模拟请求url,为了少走弯路,也百度了他人的一些建议,想要获取参数,需要破解其js加密算法,看其是如何生成的。
    由此可见,网站直接去采集请求是行不通的,只能另寻它路,总归会有解决的办法,只是目前自己的能力还不够,需要多去思考。

    问题:之前采集工商信息数据也是,对天眼查、企查查、启信宝、这些网站直接访问采集是行不通的,只能找其他的接口去采集,采集手机端接口网站,因为其反爬会少一些。

    解决:访问https://i.meituan.com/ 手机端接口网站

    点击美食,加载数据,控制台情况如下:

    请求头设置:

    参数设置:

    多拖动滑动条,发现 offset发生变化,每次刷新加载15条数据。但是这里呢,还是出现了一些问题,还没有开始爬数据,只是简单地测试加载数据就出现了验证码的问题,

    因此要像爬房产信息那样,虽然数据有很多,但是只给你返回100页数据,要想获取全部数据就要进行分类抓,不能抓取全部商品。

    拿第一个数据为例:

    点击进入店铺:

    http://meishi.meituan.com/i/poi/182184268?ct_poi=214211849171754862311089403833099184593_a182184268_c0_e68113015781879163

    http://meishi.meituan.com/i/poi/182184268?ct_poi=214211849171754862311089403833099184593_a182184268_c0_e68113015781879163

     可以发现url是拼接而成的,两个重要参数 poiid /和 ct_poi

    好了今天就先分析到这里,想要获取详情店铺数据就需要先获取其 poid和ct_poi参数,然后再配置其需要修改的相关参数就能正确采集到信息。

  • 相关阅读:
    mysql分组统计后将结果顺序排列(union实现)
    mysql格式化日期
    yaf框架安装
    如何通过PHP将excel的数据导入MySQL中
    yii日志保存机制
    安装PyInstaller打包python
    python正则表达式详解
    Python中类的定义与使用
    例子 使用sqlite3 数据库建立数据方式
    python操作轻量级数据库
  • 原文地址:https://www.cnblogs.com/lvjing/p/10061539.html
Copyright © 2020-2023  润新知