• 不用代码玩转爬虫实例(1) – 抓取猫眼电影信息


    有很多朋友在日常的工作生活当中需要抓取网页上的信息,进行相关的行业分析或者准备资料、报告使用。之前分享过一些关于用python抓取网页数据的文章,可能有朋友会觉得自己不会写代码,或者写代码很费时费劲不够方便。其实完全不用写代码一样可以玩爬虫!今天这篇文章开始就来陆续分享一下关于web scraper这款chrome插件的一些实例用法。关于web scraper,之前介绍了很多次了。使用它可以方便的仅仅通过鼠标进行简单配置,就可以爬取你所想要数据。例如电影信息、电商网站商品信息、知乎回答列表、微博热门、微博评论等等。

    文章开始之前需要先安装好web scraper,具体可以参考这篇文章:Web Scraper 使用教程(一)- 安装

    话不多说,先上实例。

    假设我们需要爬取猫眼电影网站上top100的榜单
    (https://maoyan.com/board/4)

    爬取这100部电影的排名,电影名称,主演,上映时间,得分。

    图片

    图片

    可以看到,这100部电影是分了10个页面进行展示的,每个页面的网址是有规律的,
    比如第2页是
    https://maoyan.com/board/4?offset=10
    第3页是
    https://maoyan.com/board/4?offset=20

    也就是说,这10个页面的地址是这个样子变化的:

    https://maoyan.com/board/4?offset=[0-90:10]
    

    其中[0-90:10]表示每次取值从0到90,间隔10取一次。第1页取0,第2页取10,第3页取30,以此类推。

    有了这个地址,我们就可以进行后续的操作了。

    1、浏览器里按F12启动web scraper,点击”creat new sitemap”,新建一个项目,名字可以随意起,”start url”填写上面找到的地址,如下图:

    图片

    2、设置”element”选择器,点击前两部电影后,web scraper会自动将填好代码,点击”done selecting”即可,保存。

    图片

    3、点击进入刚刚创建的selector,开始配置需要爬取的电影详细内容,方法和第二步是一样的。例如:抓取电影的排名设置,

    图片

    同样的,电影名称,主演,上映时间,得分依次设置好

    图片

    至此,所有设置就完成了,看一下总体的结构图:

    图片

    4、启动插件,运行即可,几秒就就可以搞定了。

    图片

    爬取的数据可以保存为csv文件,内容如下:

    图片

    如果你也想体验一下的话,可以联系我获取sitemap文件。

    这里说一下怎么用,F12启动web scraper后,点击”create new sitemap” – “import sitemap”,然后将txt内容粘贴进去,任意取一个名称,导入即可。

    这样就和永恒君电脑上的配置一样了,直接点击运行就可以看到效果了。

  • 相关阅读:
    Android开发:系统自动实现开机启动
    Android高手进阶教程【转】
    android 各种控件颜色值
    Android开发博客国内最大的移动开发博客eoe移动开发者社区
    异步图片加载工具类
    Android中shape的使用
    Android的asset/res资源框架结构
    winddows 运行指令 (2)
    使用activeMQ实现jms
    ActiveMQ在C#中的应用
  • 原文地址:https://www.cnblogs.com/eternalpal/p/14271707.html
Copyright © 2020-2023  润新知