• 零基础爬虫课,不会编程也能做爬虫


    为什么要学这门课?应用场景有哪些?

    1、上班族与自媒体人:采集各类数据用于工作/运营实战;
    2、电商老板:采集竞品数据,帮助分析决策;
    3、找个副业:学会数据采集技能,网上接单赚钱;

    常见数据采集方式

    1、人工采集:复制粘贴,费时费力,出错率高,效率低下;
    2、写爬虫采集:需要会编程会写爬虫,技术门槛高;

    这门课程可以解决上面的难题,学完这门课程,一天的工作量1个小时就做完了。

    它能采集什么样的数据?

    只要是电脑浏览器能打开的网站,它都可以采集。

    它不能采集什么样数据?

    只有手机App没有网站,这样的数据不能采集。

     

    安装软件

    1、安装谷歌浏览器;

    下载谷歌浏览器,https://www.google.cn/chrome/

      

    2、安装爬虫插件;

    下载插件: https://pan.baidu.com/s/15StxxtZOihb2zlsDnIS2Vw  提取码:86tn

    安装插件: https://www.bilibili.com/video/BV1W54y1r7nt/ 

    零基础爬虫课目录

    数据采集思路:

    从整体到局部,从大到小

    先找【数据框】,再找【数据框】里面的每一项数据。

    视频演示: https://www.bilibili.com/video/BV1rT4y1F7cQ/

    常用类型的介绍

    【数据框】类型:Element 普通数据框 、Element scroll down 鼠标滚动数据框 、 Element click 加载更多数据框

    【数据】类型:text 普通文本、image 图片、Element attribute 隐藏数据

    特殊类型:Link 链接,可同时用作【数据框】和【数据】类型

    基础:

    1、采集简单的【列表页】数据,示例博客园新闻,https://news.cnblogs.com/ ,视频讲解 https://m.weibo.cn/status/4575058481643763?

    2、采集简单【翻页】数据,示例博客园新闻,https://news.cnblogs.com/,视频讲解 https://m.weibo.cn/status/4575521469894849?

    进阶:

    3、采集复杂【翻页】数据,示例博客园首页,https://cnblogs.com/

    4、采集【加载更多】数据,示例 少数派网站,https://sspai.com/topics,视频讲解 https://m.weibo.cn/status/4562968928324541?

    5、采集【鼠标滚动】加载数据,示例微博,https://weibo.com/,视频讲解 https://m.weibo.cn/status/4575536645150828?

    高级:

    6、同时采集【列表页】和【详情页】数据,示例博客园新闻,https://news.cnblogs.com/,视频讲解 https://m.weibo.cn/status/4575547349539550?

    7、采集【鼠标滚动】 + 【翻页】,示例微博,https://weibo.com/

    8、采集【鼠标滚动】+ 【加载更多】 + 【翻页】,示例微博 ,https://weibo.com/

    补充:

    1、导入导出爬虫模板;

    2、常用类型介绍:

    ------------- 如下  1、2、3 类型,常用于数据框   --------------------

    1、Element, 普通类型

    2、Element scroll down,鼠标滚动类型,模拟鼠标滚动

    3、Element click,鼠标点击类型,模拟【加载更多】按钮

    -------------   4、5、6、7 常用于数据   --------------------

    4、Text,普通文本,采集普通文本信息

    5、Image,图片,采集图片地址

    6、Element attribute,采集隐藏的信息

    7、Link,链接类型

    -------------    特殊类型 Link    --------------------

    Link类型特殊在哪里?

    Link既可以用作【数据框】类型也可以用作【数据】类型

    1、Link类型,它可以采集 【链接文本】 和 【链接地址】,如下图

    2、可以点入Link类型,在里面新建一个数据框(比如Element 类型),这样就可以采集到【二级页面】的内容,如下图:

  • 相关阅读:
    python- 如何return返回多个值
    python基础之 list和 tuple(元组)
    tomcat日志分析详解
    【转】Mac下升级python2.7到python3.6
    jmeter大神博客笔记
    Charles安装包及破解包下载地址
    【转】测试管理一点点建议
    【转】优秀PMP项目经理必备的8个要素
    【这特么是个坑。。。】iOS 10.3下解决Charles抓包ssl证书信任问题
    【转】快捷支付详解--比较详细
  • 原文地址:https://www.cnblogs.com/gezifeiyang/p/13970366.html
Copyright © 2020-2023  润新知