为什么要学这门课?应用场景有哪些?
1、上班族与自媒体人:采集各类数据用于工作/运营实战;
2、电商老板:采集竞品数据,帮助分析决策;
3、找个副业:学会数据采集技能,网上接单赚钱;
常见数据采集方式
1、人工采集:复制粘贴,费时费力,出错率高,效率低下;
2、写爬虫采集:需要会编程会写爬虫,技术门槛高;
这门课程可以解决上面的难题,学完这门课程,一天的工作量1个小时就做完了。
它能采集什么样的数据?
只要是电脑浏览器能打开的网站,它都可以采集。
它不能采集什么样数据?
只有手机App没有网站,这样的数据不能采集。
安装软件
1、安装谷歌浏览器;
下载谷歌浏览器,https://www.google.cn/chrome/
2、安装爬虫插件;
下载插件: https://pan.baidu.com/s/15StxxtZOihb2zlsDnIS2Vw 提取码:86tn
安装插件: https://www.bilibili.com/video/BV1W54y1r7nt/
零基础爬虫课目录
数据采集思路:
从整体到局部,从大到小
先找【数据框】,再找【数据框】里面的每一项数据。
视频演示: https://www.bilibili.com/video/BV1rT4y1F7cQ/
常用类型的介绍
【数据框】类型:Element 普通数据框 、Element scroll down 鼠标滚动数据框 、 Element click 加载更多数据框
【数据】类型:text 普通文本、image 图片、Element attribute 隐藏数据
特殊类型:Link 链接,可同时用作【数据框】和【数据】类型
基础:
1、采集简单的【列表页】数据,示例博客园新闻,https://news.cnblogs.com/ ,视频讲解 https://m.weibo.cn/status/4575058481643763?
2、采集简单【翻页】数据,示例博客园新闻,https://news.cnblogs.com/,视频讲解 https://m.weibo.cn/status/4575521469894849?
进阶:
3、采集复杂【翻页】数据,示例博客园首页,https://cnblogs.com/
4、采集【加载更多】数据,示例 少数派网站,https://sspai.com/topics,视频讲解 https://m.weibo.cn/status/4562968928324541?
5、采集【鼠标滚动】加载数据,示例微博,https://weibo.com/,视频讲解 https://m.weibo.cn/status/4575536645150828?
高级:
6、同时采集【列表页】和【详情页】数据,示例博客园新闻,https://news.cnblogs.com/,视频讲解 https://m.weibo.cn/status/4575547349539550?
7、采集【鼠标滚动】 + 【翻页】,示例微博,https://weibo.com/
8、采集【鼠标滚动】+ 【加载更多】 + 【翻页】,示例微博 ,https://weibo.com/
补充:
1、导入导出爬虫模板;
2、常用类型介绍:
------------- 如下 1、2、3 类型,常用于数据框 --------------------
1、Element, 普通类型
2、Element scroll down,鼠标滚动类型,模拟鼠标滚动
3、Element click,鼠标点击类型,模拟【加载更多】按钮
------------- 4、5、6、7 常用于数据 --------------------
4、Text,普通文本,采集普通文本信息
5、Image,图片,采集图片地址
6、Element attribute,采集隐藏的信息
7、Link,链接类型
------------- 特殊类型 Link --------------------
Link类型特殊在哪里?
Link既可以用作【数据框】类型也可以用作【数据】类型
1、Link类型,它可以采集 【链接文本】 和 【链接地址】,如下图
2、可以点入Link类型,在里面新建一个数据框(比如Element 类型),这样就可以采集到【二级页面】的内容,如下图: