• 淘宝爬虫(Selenium)


    相关介绍

    淘宝的整个页面数据确实也是通过Ajax获取的,但是这些 Ajax 接口参数比较复杂,可能会包含加密密钥等参数,所以我们如果想自己构造 Ajax 参数是比较困难的,对于这种页面我们最方便快捷的抓取方法就是通过 Selenium,本节我们就来用 Selenium 来模拟浏览器操作,抓取淘宝的商品信息,并将结果保存到 MongoDB。

    目标

    本节我们要利用 Selenium 抓取淘宝商品并用 PyQuery 解析得到商品的图片、名称、价格、购买人数、店铺名称、店铺所在地信息,并将其保存到MongoDB。

    准备工作

    本节首先以 Chrome 为例来讲解 Selenium 的用法,在本节开始之前请确保已经正确安装好了 Chrome 浏览器并配置好了 ChromeDriver,另外还需要正确安装好 Python 的 Selenium 库,最后还对接了 PhantomJS 和 Firefox,请确保安装好了 PhantomJS 和 Firefox 并配置好了 GeckoDriver。

    详细介绍网址

    我的GitHub项目链接

  • 相关阅读:
    团队冲刺2.7
    单词接龙
    团队冲刺2.6
    梦断代码阅读笔记02
    团队冲刺2.5
    吾日三省吾身(6)
    吾日三省吾身(5)
    周计划01(20200921-20200927)
    吾日三省吾身(4)
    吾日三省吾身(3)
  • 原文地址:https://www.cnblogs.com/zswbky/p/8454089.html
Copyright © 2020-2023  润新知