什么是爬虫?
- 就是通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程
- 爬虫的分类:
- 通用爬虫
- 抓取一整张网页的数据
- 聚焦爬虫
- 抓取页面的局部数据
- 增量式爬虫
- 用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据
- 通用爬虫
- 反爬机制
- 针对门户网站,阻止爬虫爬取
- 反反爬策略
- 针对爬虫程序员,破解反爬机制
- 爬虫合法吗?
- 爬取数据的行为风险体现:
- 爬虫干扰了被访问网站的正常运行
- 爬虫爬取了受法律保护的特定类型的数据或信息
- 规避风险
- 严格遵守网站设置的robots协议
- 优化代码,避免干扰到网站的正常运行
- 爬取到的信息属于个人信息或涉及隐私商业机密等的,应及时停止并删除
- 爬取数据的行为风险体现:
- robots协议:文本协议
- 第一个反爬机制
- 特性:防"君子"不防"小人"的机制
学习方法
- Anaconda是一个集成环境
- 基于浏览器的一种可视化开发工具 : jupyter notebook
- 可以在指定目录的终端录入 jupyter notebook 指令, 然后启动服务
- cell分两种模式
- code代码模式
- md文本编辑模式
- 快捷键
- 添加cell:a, b
- 删除cell:x
- 执行:shift+enter
- 缩进和补全:tab
- 切换cell模式:
- m code->markdown
- y markdown->code
- 打开帮助文档:shift+tab