1. 爬虫概述

1. 爬虫概述
一、开发环境搭建介绍
- Anacanda开发环境
  - Anacanda是一个基于数据分析和机器学习的集成环境（给我们集成好了数据分析和机器学习对应的各种环境和模块）
- jupyter就是Anacanda这个集成环境提供的一个基于浏览器可视化的编码工具。
  - 注意事项：
    
    在环境搭建好的时候只需要安装Anacanda。安装路径中必须是纯英文且不可以出现特殊符号。
  - 测试安装好了没有：
    
    打开终端：jupyter notebook按下回车。说明安装成功，且环境变量也配置成功。
    
    在你所有的程序中（点击windows键），找寻有没有一个叫做anacanda的文件夹，点击该文件夹如果文件夹下方出下一个叫navegator的程序，也表示安装成功。只不过环境变量还没有配置好
- 如何启动jupyter
  - 方式一：配置好了环境变量，直接在终端录入jupyter notebook按下回车即可。
  - 方式二：没有配置环境变量，打开navegator，点击左上角选项，点击jupyter notebook图标下的lauch启动
    
    推荐：点击左上角的environments
    
    通过点击open terminal打开终端，在该终端中录入jupyter notebook按下回车即可。
二、jupyter的基本使用
- 在终端中录入jupyter notebook指令后，表示我们在本机启动一个服务。然后会自动打开你的默认浏览器。
  - 注意：你在执行jupyter notebook指令的终端，可以进入到指定的目录中执行jupyter notebook指令后，则打开的浏览器显示的页面就是你当前终端对应目录的目录结构。
    
    你终端对应的目录结构就是你浏览器打开jupyter页面中的根目录。
- new新建
  - python3：新建一个jupyter的源文件（重点）
    
    有cell组成：cell就是一行可编辑框。
    
    cell的作用：
    
    用来根据不同的模式进行代码和笔记的编写。编写好的代码和笔记可以直接在当前文件中运行，查看到运行结果！
    
    cell模式：
    
    code:可以编写python代码
    
    code模式的cell可以写一行代码或多行代码。
    
    特性：编写代码的顺序是无所谓的，但是执行代码的顺序一定是自上向下的。
    
    只需要在一个cell中定义相干变量或者函数或者类（相关定义），当该cell执行后，则定义的内容就会被加载到当前源文件的缓存中，那么表示在其他任意的cell中都可以直接使用之前定义好的加载到缓存中的定义。
    
    markdown：编写笔记。可以使用markdown集成好的指令指定文字的样式，也可以直接使用html标签制定文字的样式。
    
    folder：新建一个文件夹
    
    text file：新建一个任意后缀的文本文件
    
    可以写程序，但是不能直接在该文件中运行。
    
    terminal：新建一个基于浏览器的终端。
- 快捷键的使用
  - 插入cell：a（在目标cell的上面插入一个cell），b（在目标cell的下面插入一个cell）
  - 删除cell：x,双击d
  - 执行cell：shift+enter
  - 切换cell的模式：m（将代码格式切换成笔记格式）,y（将笔记格式切换成代码格式）
  - cell执行后，在cell的左侧双击就可以回到cell的可编辑模式
  - 执行结果的收回：在执行结果左侧双击即可
  - 打开帮助文档：shift+tab
  - 撤销：z
三、爬虫概述
- 什么是爬虫？
  - 就是通过编写程序，让其模拟浏览器上网，然后在互联网中抓取数据的过程
    
    关键词抽取：
    
    模拟：浏览器就是一个纯天然最原始的爬虫工具
    
    抓取：
    
    抓取一整张页面源码数据
    
    抓取一整张页面中的局部数据
- 爬虫的分类
  - 通用爬虫
    
    要求我们爬取一整张页面源码数据
  - 聚焦爬虫
    
    要求爬取一张页面中的局部数据
    
    聚焦爬虫一定是建立在通用爬虫的基础上的。
  - 增量式爬虫
    
    用来监测网站数据更新情况，以便爬取到网站最新更新出来的数据
  - 分布式爬虫：
    
    提高爬虫效率的中级武器
- 反爬机制
  - 是作用到门户网站中，如果网站不想让爬虫轻易爬取到数据，它可以制定相关的机制或措施阻止爬虫程序爬取其数据。
- 反反爬机制
  - 是作用在爬虫程序中。我们爬虫可以制定相关的策略破解反爬机制从而爬取到相关的数据
- 课程第一个反爬机制：
  - robots协议：防君子不妨小人
    
    是一个纯文本的协议，协议中规定该网站中哪些数据可以被那些爬虫爬取，哪些不可以。
  - 破解：
    
    你自己主观性的不遵从该协议即可
相关阅读:
dota监測
 C++ new malloc realloc
LeetCode240:Search a 2D Matrix II
Mentor.Graphics.FloTHERM.XT.2.3+Mentor.Graphics.Flowmaster.7.9.4
怎样在Linux下使用Markdown进行文档工作
 用 Arduino Uno 给 Arduino Mini（Pro）烧录程序
 jQuery事件对象
 asp.net 获取系统的根目录
 C语言中将数字转换为字符串的方法
 ubuntu 12.04 64位设置兼容32位的实现
原文地址：https://www.cnblogs.com/borntodie/p/14848889.html

一、开发环境搭建介绍

二、jupyter的基本使用

三、爬虫概述