• python抓取网页中的动态数据


    一、概念

      网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的。所以也就引出了什么是动态数据的概念,动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器后动态生成的,而之前并没有的。在编写爬虫进行网页数据抓取的时候,经常会遇到这种需要动态加载数据的HTML网页,如果还是直接从网页上抓取那么将无法获得任何数据。

    二、操作

      1.先进入网址如:https://dujia.qunar.com/

      2.在Chrome浏览器中,点击F12,打开Network中的XHR,我们来抓取对应的js文件来进行解析:

      3.向下拖拽或点击获取更多时,使得页面加载入更多的数据信息,从而我们可以抓取对应的报文。如点击“度假”

      4.查看XHR

      5.访问Request URL查看json信息:

      https://dujia.qunar.com/golfz/urlProxy/proxy.qunar?urlPath=http%3A%2F%2Fdiy.dujia.qunar.com%2Fapi%2Fdest.json&_=1501918232175

  • 相关阅读:
    special word count
    Regular Expression
    position 之 fixed vs sticky
    查看linux并发连接数的方法
    Linux/Unix环境下的make命令详解(转)
    Redis数据结构(转)
    maven中依懒scope说明
    mysql主从复制
    linux查看是否已经安装某个软件
    在mac下使用py2app打包python项目
  • 原文地址:https://www.cnblogs.com/xiaomingzaixian/p/7290433.html
Copyright © 2020-2023  润新知