• 爬虫入门五 gooseeker



    title: 爬虫入门五 gooseeker
    date: 2020-03-16 16:00:00
    categories: python
    tags: crawler

    gooseeker是一个简单的爬虫软件。无需编程知识就可以使用。

    1 简介

    集搜客GooSeeker大数据软件开发始于2007年,2007年正是语义网络走向商用的时期,集搜客致力于提供一套便捷易用的软件,将网页内容进行语义标注和结构化转换。
    GooSeeker是一个采用云计算架构的网页数据抽取工具包,能根据用户的指导,从网页上抓取需要的文本,并输出按一定结构输出提取结果文件(XML文件)

    2 实例

    因为是个工具软件,就直接采用实例学习。

    2.1集搜客爬虫浏览器入门和基本术语

    以京东商品的名称和价格为例。

    复制目标页面到GS。
    https://item.jd.com/100004770263.html,并打开

    按下定义规则按钮。
    此时GS分为原网页,dom窗口(展示网页结构),工作台。

    在工作台,定义采集规则。
    起一个主题名,然后查重。

    然后双击原网页想要采集部分,会提示输入标签名。标签名自定义。打钩确认。

    第一次标签会提示输入整理箱名:摘取的内容(标签)会放到整理箱。 标签是输出为excel表格时的项目。

    工作台点击测试,查看能否抓取。

    保存规则:在GS右上角有"存规则按钮"

    然后点击"爬数据"按钮,启动GS的打数机爬取。

    在爬取界面点击 文件->存储路径 可以查看路径。 去相关目录查找可见保存的XML文件。 注注意在user的DataScraperWorks目录下

    然后回到GS主页,回到普通浏览模式。

    再返回GS官网,登录会员中心,进入规则管理项,选择刚刚定义的规则,点击导入数据,点击附件选择刚刚的XML文件,点击导入。
    然后点击导出数据,保存到 downloads目录。得到excel文件。
    这里视频教程和软件版本不一致,改为到会员中心的数据管理导入导出

    2.2 京东商品列表采集(样例复制)

    列表页面就是由多个相同结构的数据组成的页面。

    比如在京东搜索apple页面。https://search.jd.com/Search?keyword=apple&enc=utf-8&wq=apple&pvid=7f57e2c13a294435957c391adda80f01

    复制到GS。注意要拖动滚动条使页面加载完。

    然后定义规则:
    新建主题,然后点击创建规则->新建整理箱。

    然后选择页面中一个商品的名称,价格创建两个标签。

    然后测试。

    然后选中刚刚创建的整理箱->抓取内容->整理箱名。
    点击原网页创建了标签的名称,在下方dom窗口出现对应节点,右键,样例复制,选择第一个(添加第一个样例)

    然后原网页选择下一个商品,点击名称,下方dom右键选择第二个样例。 (这里样例复制只需要选择连续的两个数据结构的相同节点即可,比如京东搜索页面的两个手机的图片,不一定是刚刚创建的标签)

    工作台点击定位,选择绝对定位,存储,测试。

    然后右上角保存规则。点击。爬数据

    爬完后可以点击查看日志有无错误。

    剩下的转excel的操作和 2.1一致

    2.3 京东搜索列表翻页采集

    京东搜索键盘,复制到GS。
    注意要先拖到,使得网页加载完毕。

    新建主题,整理箱。然后点击页面创建标签: 名称,价格,店家。

    然后创建样例复制。见 2.2

    可以测试一下。

    然后翻页:
    拖动到页面下方的翻页区,点击原网页,可见黄色框选。在下方dom区可见选中了div节点,右键,翻页映射,作为翻页区,新建线索。注意修改目标任务名为当前任务。

    然后找到翻页记号 ,这里是 "下一页"。点击,在dom区域可见选中了EM节点,但是这里是文本"下一页",所以展开该EM节点,选中其中的text节点,右键,翻页映射,作为翻页记号。

    存规则,爬数据。
    这里每个页面一个XML文件。

    为了防止爬虫到了最后一页陷入停止,在爬数据的打数机页面,高级,重点标志,重复内容。这样采集到连续三个相同的页面就会停止。中途也可以选择强制退出。

    到生成的目录下,选择多个XML文件,压缩为ZIP,然后在GS的会员中心导入,导出,得到Excel文件。

    2.4 京东搜索列表层级采集

    在2.3翻页的基础上,进入商品的详情页采集信息。

    https://www.bilibili.com/video/av22910870

  • 相关阅读:
    css 边框添加四个角效果
    PS 怎么去掉噪点
    Packet Tracer——添加温度计
    zabbix监控mysql数据
    日常检测
    mysql的基本命令操作
    判断字典中是否有这个单词
    批量创建用户
    检测局域网ip存活状态
    spring boot gradle build:bootRepackage failed
  • 原文地址:https://www.cnblogs.com/lqerio/p/13484107.html
Copyright © 2020-2023  润新知