工具介绍
Web Scraper轻量的爬虫利器。
优点:
不需要学习编程就可以爬取网页数据,可以节省大量的编码及调试时间。
依赖环境相当简单,只需要谷歌浏览器和插件即可。
缺点:
只支持文本数据抓取,图片短视频等多媒体数据无法批量抓取。
不支持复杂网页抓取,比如说采取来反爬虫措施的,复杂的人机交互网页,Web Scraper 也无能为力,其实这种写代码爬取也挺难的。
导出的数据并不是按照爬取的顺序展示的,想排序就就要导出 Excel 再进行排序,这一点也很容易克服,大部分数据都是要导出 Excel 再进行数据分析的。
一、下载
下载链接: https://pan.baidu.com/s/1_o7ZS34TA-py_q2tyJBWjA?pwd=a74m 提取码: a74m
二、安装
Web Scraper 是一个谷歌浏览器插件。下载后直接将crx文件拖入谷歌扩展程序,即可自动安装。
三、使用
参考链接:https://blog.csdn.net/somenzz/article/details/113011179
工具的工作原理:Web Scraper是以树的形式来组织 sitemap 的。
网页的内容是一棵树,树根就是网站的 url,从网站的 url 到我们需要访问的数据所在的元素(html element)就是从树根到叶子节点的遍历的过程。这个过程有简单的,就是直接一条路就走到叶子节点,也有复杂的,采用递归的思想处理页面刷新情况。
简单爬取例子:爬取知乎的热榜数据
1、打开Web Scraper
打开知乎网站,F12显示开发工具,点击Web Scraper
2、创建 sitemap 及 selector
1)创建sitemap
点击Create new sitemap,创建Sitemap,输入以下信息,点击Create sitemap 按钮完成创建。如下图所示:
Sitemap name:zhihu_hot
Start Url:https://www.zhihu.com/hot
2)创建selector
点击Add new selector 添加 selector,也就是添加子节点。
ID 这里填写 category,类型选择 Element Click,此时会出现两个选择器,一个是 selector,代表着要传递给 category 的子节点使用的元素,另一个是 Click selector,代表要点击的元素。为了方便你理解,请先选择 Click selector,在选择 selector,填写完整后点击按钮Save selector,完成selector的创建。如下图所示:
Id:category
Type:Element Click
Selector:div.HotList-list
Click selector:a.HotListNav-item
继续在 category 下添加 Selector,即 category_e, category_e 接受到的元素就是 category 中的 selector 选择的元素,即 div.HostList-list,category_e 的配置。
Id:category_e
Type:Element
Selector:section
Parent Selectors:category
如下图所示:
继续在 category_e 下面继续添加三个 Selector,即 hot_num、title、hot_degree,分别如下图所示:
Id:hot_num
Type:Text
Selector:div.HotItem-rank
Parent Selectors:category_e
Id:title
Type:Link
Selector:.HotItem-content a
Parent Selectors:category_e
Id:hot_degree
Type:Text
Selector:div.HotItem-metrics
点击 Selector graph展示的树状图,如下所示:
到此sitemap 及其 selector 都创建完成。
3、运行 Web Scraper
单击菜单中的 Scrape 按钮
然后会让你设置爬取时的间隔,保持默认即可,如果网速比较慢可以适当延长:
点击refresh,即可看到抓取的数据,如下图所示:
数据可以导出到 csv 文件或excel,点击Export Sitemap,导出文件