• 谷歌插件Web Scraper爬虫


    工具介绍

    Web Scraper轻量的爬虫利器。
    优点:
    不需要学习编程就可以爬取网页数据,可以节省大量的编码及调试时间。
    依赖环境相当简单,只需要谷歌浏览器和插件即可。

    缺点:
    只支持文本数据抓取,图片短视频等多媒体数据无法批量抓取。
    不支持复杂网页抓取,比如说采取来反爬虫措施的,复杂的人机交互网页,Web Scraper 也无能为力,其实这种写代码爬取也挺难的。
    导出的数据并不是按照爬取的顺序展示的,想排序就就要导出 Excel 再进行排序,这一点也很容易克服,大部分数据都是要导出 Excel 再进行数据分析的。

    一、下载

    下载链接: https://pan.baidu.com/s/1_o7ZS34TA-py_q2tyJBWjA?pwd=a74m 提取码: a74m

    二、安装

    Web Scraper 是一个谷歌浏览器插件。下载后直接将crx文件拖入谷歌扩展程序,即可自动安装。

    三、使用

    参考链接:https://blog.csdn.net/somenzz/article/details/113011179
    工具的工作原理:Web Scraper是以树的形式来组织 sitemap 的。
    网页的内容是一棵树,树根就是网站的 url,从网站的 url 到我们需要访问的数据所在的元素(html element)就是从树根到叶子节点的遍历的过程。这个过程有简单的,就是直接一条路就走到叶子节点,也有复杂的,采用递归的思想处理页面刷新情况。
    简单爬取例子:爬取知乎的热榜数据

    1、打开Web Scraper

    打开知乎网站,F12显示开发工具,点击Web Scraper

    2、创建 sitemap 及 selector

    1)创建sitemap

    点击Create new sitemap,创建Sitemap,输入以下信息,点击Create sitemap 按钮完成创建。如下图所示:
    Sitemap name:zhihu_hot
    Start Url:https://www.zhihu.com/hot

    2)创建selector

    点击Add new selector 添加 selector,也就是添加子节点。
    ID 这里填写 category,类型选择 Element Click,此时会出现两个选择器,一个是 selector,代表着要传递给 category 的子节点使用的元素,另一个是 Click selector,代表要点击的元素。为了方便你理解,请先选择 Click selector,在选择 selector,填写完整后点击按钮Save selector,完成selector的创建。如下图所示:

    Id:category
    Type:Element Click
    Selector:div.HotList-list
    Click selector:a.HotListNav-item

    继续在 category 下添加 Selector,即 category_e, category_e 接受到的元素就是 category 中的 selector 选择的元素,即 div.HostList-list,category_e 的配置。
    Id:category_e
    Type:Element
    Selector:section
    Parent Selectors:category
    如下图所示:

    继续在 category_e 下面继续添加三个 Selector,即 hot_num、title、hot_degree,分别如下图所示:
    Id:hot_num
    Type:Text
    Selector:div.HotItem-rank
    Parent Selectors:category_e

    Id:title
    Type:Link
    Selector:.HotItem-content a
    Parent Selectors:category_e

    Id:hot_degree
    Type:Text
    Selector:div.HotItem-metrics

    点击 Selector graph展示的树状图,如下所示:

    到此sitemap 及其 selector 都创建完成。

    3、运行 Web Scraper

    单击菜单中的 Scrape 按钮

    然后会让你设置爬取时的间隔,保持默认即可,如果网速比较慢可以适当延长:


    点击refresh,即可看到抓取的数据,如下图所示:

    数据可以导出到 csv 文件或excel,点击Export Sitemap,导出文件


  • 相关阅读:
    Generator函数介绍
    C语言基础三
    C语言基础二
    C语言基础一
    node——路由控制
    Node.js_HTTP模块
    node_Express安装及检验
    conda Pyhon版本切换
    JAVA泛型里面各值代表的意义
    jq实现表格多行列复制
  • 原文地址:https://www.cnblogs.com/seamy/p/16039213.html
Copyright © 2020-2023  润新知