• 利用web scraper爬取美团的相关景点信息


    一、安装 web scraper 插件

    在网页上搜索web scraper 下载,下载后是一个 crx 文件(web scraper插件只支持Chrome浏览器

    二、在Chrome浏览器中部署 web scraper

    打开Chrome浏览器,找到扩展程序

    进入扩展程序的页面后,打开开发者模式

    点击加载已解压的扩展程序,选择刚刚下载的crx文件

    出现以下这个页面后,部署 web scraper 完成

     

    三、爬取一页景点信息

    1.先打开美团的官网,登录自己的账号

    搜索山东的景点

    要爬取的内容为两部分,景点的名称和位置

    2. 右键选择检查,进入开发者模式,选择web scraper

    新建一个 sitemap

    自己起一个名字,URL填写要爬取页面的网址(就是当前页面地址栏的地址,直接复制粘贴就行)

    创建完成后,添加一个新的selector

     

    然后按照以下图中的步骤操作

     

    创建完成后

     

     

    进入view_s

     

    仿照上面的步骤,添加一个新的selector,这个是关于景点的名称的

    再添加一个新的selector,这个是关于景点位置的,操作如上一步

     

    创建完成之后,如下所示

     

     

    可以在selector graph中查看结构

    结构如下:

     

    点击scrape进行爬取

     响应时间为2秒

    爬取完成后点击refresh,更新数据

     

     

    也可以点击export data as csv,将数据保存为一个csv格式的外部文件

     

  • 相关阅读:
    迭代器、生成器、装饰器(转)
    Python小数据池
    接阿里云oss有感
    VSCode快捷键
    前端跨域调请求 nginx反向代理
    Git生成密钥
    【westorm系列之二】配置格式化
    钉钉安卓端无法渲染数据
    express 写接口
    js正则匹配身份证号 有坑
  • 原文地址:https://www.cnblogs.com/canneddream/p/14418522.html
Copyright © 2020-2023  润新知