爬虫初识

爬虫初识
什么是爬虫?
```
- 就是通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程
```
- 爬虫的分类:
  - 通用爬虫
    
    抓取一整张网页的数据
  - 聚焦爬虫
    
    抓取页面的局部数据
  - 增量式爬虫
    
    用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据
- 反爬机制
  - 针对门户网站,阻止爬虫爬取
- 反反爬策略
  - 针对爬虫程序员,破解反爬机制
- 爬虫合法吗?
  - 爬取数据的行为风险体现:
    
    爬虫干扰了被访问网站的正常运行
    
    爬虫爬取了受法律保护的特定类型的数据或信息
  - 规避风险
    
    严格遵守网站设置的robots协议
    
    优化代码,避免干扰到网站的正常运行
    
    爬取到的信息属于个人信息或涉及隐私商业机密等的,应及时停止并删除
- robots协议:文本协议
  - 第一个反爬机制
  - 特性:防"君子"不防"小人"的机制
学习方法
- Anaconda是一个集成环境
  - 基于浏览器的一种可视化开发工具 : jupyter notebook
  - 可以在指定目录的终端录入 jupyter notebook 指令, 然后启动服务
- cell分两种模式
  - code代码模式
  - md文本编辑模式
- 快捷键
  - 添加cell:a, b
  - 删除cell:x
  - 执行:shift+enter
  - 缩进和补全:tab
  - 切换cell模式:
    
    m code->markdown
    
    y markdown->code
  - 打开帮助文档:shift+tab
相关阅读:
Android升级ADT22后会报ClassNotFoundException的原因分析
 修改Android解锁界面
 Android中dip, dp, px,pt, sp之间的区别：
移动开发:Android官方提供的支持不同屏幕大小的全部方法
 常用正则表达式
 Android多语言与国际化
 Android中的资源与国际化
 Android开发：使用Fragment改造TabActivity
Android开发–Intent-filter属性详解
 Fragment、Activity比较——Android碎片介绍
原文地址：https://www.cnblogs.com/straightup/p/13659989.html

最新文章
Go-01 安装 Go开发的工具
 数据偏移 shift
添加新列
 索引
 创建
 监控项的自定义执行时间
 string处理
 创建
 string
输入输出

什么是爬虫?

学习方法