• 【数据采集平台】教程-单页面采集


    使用教程——单页面采集

    当前版本

    测试版

    单页面采集

    功能

    采集单个页面。单个页面是指:一个页面中只包含一条采集信息的页面,例如文章详情页面,一个url对应一篇文章信息。

    使用

    打开“配置中心” > “新建爬虫” > “单页面类型” 菜单,进入爬虫配置界面:

    基本配置:

    是否必填 说明 示例
    爬虫名字 任意字符,不可与以有的爬虫名称重复 微信文章爬虫
    采集源 采集的网站名称 微信
    源页面 要采集的源链接,必须为规范的url https://baidu.com
    匹配开头 以该值开头的链接才会被采集 https://baidu.com
    最大采集量 单个爬虫最大支持采集量为10000 500
    线程数 一个爬虫所启用的线程数,最大值为3 1
    允许JS 启用JS可以采集动态网页,但是采集速度将会变慢,默认不启用 不启用
    描述 任意值,对爬虫的表述 这是一个微信文章爬虫

    基本配置完成后,点击“下一步”进行采集规则配置。

    配置规则:

    是否必填 说明 示例
    字段code 采集字段唯一标识,同一个爬虫中的字段code不可重复 title
    字段标题 采集字段唯的名称 文章标题
    采集规则 采集规则,使用css选择器,很重要。 .div > .title
    采集类型 TEXT:采集文本内容,HTML:采集HTML内容,ATTR:采集属性值,当选择ATTR时,下面的属性值必填 TEXT
    属性值 当采集类型为ATTR时必填,其他情况不填 href
    非空字段 是否为非空字段,若是,则当该字段为空时,数据将不会被保存
    去重字段 是否是去重字段,若是则会更具该字段进行去重,重复的数据将不会被保存

    采集规则配置说明:

    目前使用css选择器的方式来定位html元素,所以可以使用浏览器自带的检查元素功能来快速找到css选择器路径(以谷歌浏览器为例)

    比例如需要采集csdn博客首页的文章:

    在需要采集的链接上右键,选择“检查”:


    然后浏览器自动定位到所选元素,再右键“copy” -> “copy selector”

    在这里插入图片描述
    在将复制的内容粘贴到“采集规则”输入框即可。

    配置完成

    采集规则配置完成后,点击“下一步”,选择“保存”或者“启动爬虫”。“保存”将不会启动爬虫,需要在“数据采集” > “状态管理” 中找到刚配置的爬虫,点击“启动”。

  • 相关阅读:
    Linux Window Redis安装
    Mysql 死锁的详细分析方法
    mariadb rpm 安装
    我希望我能做到:我只是认真--做技术的人,对待技术,应该拥有什么样的态度?
    Google140道面试题
    mysql my.cnf配置文件详解
    Linux iostat字段解析
    Linux mpstat字段解析
    Selenium入门8 js调用
    Selenium入门7 内嵌框架iframe
  • 原文地址:https://www.cnblogs.com/cnsec/p/13286639.html
Copyright © 2020-2023  润新知