• 新媒体人必备数据分析工具|Web Scraper初级用法


    关注公众号:Python爬虫数据分析挖掘,免费获取更多开源项目源码

    对于新媒体运营来说,数据分析是必备的能力之一。工作中很多时候都会有很多需要进行数据收集的情况,这时候如果采用手动采集的情况,不仅效率极低,很浪费时间,也容易出错。

    我一开始学习新新媒体运营的时候,有一次我在收集一个知乎大v的文章想要分析研究他的选题时,大晚上的我用复制黏贴到表格的方式整整用了一个小时。工作做完之后都有点手抖眼抽筋,累觉不爱,再也不想做这样的工作了。想偷懒的我在网络上扒了又扒,终于找到了这款傻瓜式的爬虫工具——web scraper

    web scraper最大的特点就是对于新手小白非常的友好,非常简单易学,不需要太复杂的编程代码知识,只需要轻松几步,就可以抓取到你所需的内容,一个小时就能轻松掌握。

    注意了.jpg

    一、Web scraper的下载安装

    web scraper是一款chrome插件软件,你可以选择在chrome应用商店中下载安装,如果无法进入应用商店的话可以给我评论区留言,领取web scraper的安装包手动安装,只需要把压缩包拖到扩展工具中就可以了。

    扩展工具.png

    二、打开Web scraper

    打开你想要抓取的网页内容,然后右键点击检查,就可以找到webscraper工具。或者选择通过Ctrl + Shift + I 或者直接点击F12 的方式打开。

    打开web scraper.png

    三、新建sitemap

    create new sitemap下方的有creat sitemap和import sitemap两条命令,前一个是新建,后一个是通过倒入之前建立的代码来执行抓取命令。由于我们是入门,所以选择creat sitemap。

    新建sitemap.png


    输入sitemap name:这里可以输入你所在的网页名称,如果是豆瓣页,可以输入douban
    输入start url(初始网页链接):输入你所在的网页链接就行

    四、参数设置

    web scraper其实是模拟人的操作来实现数据的抓取的。想抓取二级页面要先抓取到一级页面的内容。
    举个例子来说,你要做竞品分析,研究某个知乎创作者写的文章,想抓取标题、赞同数、评论数这些内容,那你必须首先要抓取到文章整体才能进一步抓取到标题、赞同数、评论数这些元素。
    创建sitemap之后,就出现一个add new seletor(创建一个选择器)的参数。

    参数设置.png


    id:这里可以填写你要选择的内容名,比较随意,方便你自己的识别就可以了。比如我想抓取知乎创作者运营的小事的文章,这里我就填入yunyingdexiaoshi。
    Type:你要抓取的内容的类型。这里边的下拉选项有text(文本)、link(链接)、image(图片)、table(表格)等等。我们这次要先抓取文章整体可以选择element选项。
    Selector:点击选择Select。然后把鼠标移动到想要抓取的内容上方,直到选中整篇文章。先点击选中第一篇文章,然后点击选中第二篇文章,后边的文章就自动识别抓取。然后点击done selecting。

    done selecting.png


    Multiple:如果要抓取多个要素时点击选择multiple前面的小框。若是单个元素就不必点选了。
    Save selecting:保存选择参数时点save selecting。

    这样一级页面文章就选择完了,下一步是在文章页面下设置赞同数等二级选择。进入文章整体选择标题等元素时,root/ 后边这部分就是你刚刚抓取的一级选择内容名称。

    进入二级页面.png


    接下来就是设置二级选择的操作。和一级页面的操作类似。只是Type类型这要根据你想抓取的内容类型进行相应的选择,如果要抓取赞同数或者赞同数时,要选择Text的下拉选项,要抓取标题和链接时,选择的link的下拉选项。

    五、爬取数据

    点击scrape开始抓取数据,会出现两个参数:request interval和page load delay 默认的数值是2000,这个数值和网速有关,一般情况下2000是ok的。如果网速慢的话加载会比较慢,这样可能就会导致抓取到空白的内容。这种情况下可以把这两个数值设置的大一些,比如设置到3000甚至更大。

    抓取时页面不能关,关的话容易出现错误。最后出现no data scraped yet.的页面就代表抓取完了。点refresh就可以预览抓取的内容。
    最后想导出表格文件可以点击export data as CSV(csv是一种文件格式,支持excel),然后download now。

    六、用web scraper抓取多页

    上述的操作可以抓取到你所在的页面单页的内容,如果你想抓取的网页是数字分页的形式,可以通过修改URL的方式实现抓取多页的目的。

    一般数字分页这种多页的链接都是有一定规律的
    如运营的小事的文章
    第一页的链接: https://www.zhihu.com/people/CYFCX/posts?page=1
    第二页的链接: https://www.zhihu.com/people/CYFCX/posts?page=2
    第三页的链接: https://www.zhihu.com/people/CYFCX/posts?page=3
    ...

    查看你所要抓取的首页和末页的页数,找到差值,如以上页面的差值是1。(不一定所有的差值都是1,一定要先观察好)然后把规律链接的页数n改为[首页-末页:差值],差值为1时可以忽略不写差值和冒号的部分。

    如想要抓取运营的小事的1-4页的文章,在设置URL的时候可以先复制第一页的链接,把最后的数字1改为[1-4],https://www.zhihu.com/people/CYFCX/posts?page=[1-4],把它填入Start URL中。

    多页抓取.png

    这款傻瓜爬虫工具你get到了吗,快来练习起来吧!

    耐得住寂寞,才能登得顶
    Gitee码云:https://gitee.com/lyc96/projects
  • 相关阅读:
    ibatisnet系列
    jQuery弹出层演示
    winform中datagridview的用法
    ASP.net:截取固定长度字符串显示在页面,多余部分显示为省略号
    hdu 4507 恨7不成妻(求l,r中与7不相关数字的平方和)
    hdu 2089 数位dp
    uestc 1307 统计数位之间相差不小于2的数的个数
    Spoj 2319 数位统计(0,1, 2^k1 这些数分成M份)
    zoj 3416 统计平衡数个数
    数位统计 sgu 390 <浅谈数位类问题>
  • 原文地址:https://www.cnblogs.com/chenlove/p/14038645.html
Copyright © 2020-2023  润新知