• 1. 爬虫概述


    一、开发环境搭建介绍

    • Anacanda开发环境
      • Anacanda是一个基于数据分析和机器学习的集成环境(给我们集成好了数据分析和机器学习对应的各种环境和模块)
    • jupyter就是Anacanda这个集成环境提供的一个基于浏览器可视化的编码工具。
      • 注意事项:
        • 在环境搭建好的时候只需要安装Anacanda。安装路径中必须是纯英文且不可以出现特殊符号。
      • 测试安装好了没有:
          1. 打开终端:jupyter notebook按下回车。说明安装成功,且环境变量也配置成功。
          1. 在你所有的程序中(点击windows键),找寻有没有一个叫做anacanda的文件夹,点击该文件夹如果文件夹下方出下一个叫navegator的程序,也表示安装成功。只不过环境变量还没有配置好
    • 如何启动jupyter
      • 方式一:配置好了环境变量,直接在终端录入jupyter notebook按下回车即可。
      • 方式二:没有配置环境变量,打开navegator,点击左上角选项,点击jupyter notebook图标下的lauch启动
        • 推荐:点击左上角的environments
        • 通过点击open terminal打开终端,在该终端中录入jupyter notebook按下回车即可。

    二、jupyter的基本使用

    • 在终端中录入jupyter notebook指令后,表示我们在本机启动一个服务。然后会自动打开你的默认浏览器。
      • 注意:你在执行jupyter notebook指令的终端,可以进入到指定的目录中执行jupyter notebook指令后,则打开的浏览器显示的页面就是你当前终端对应目录的目录结构。
        • 你终端对应的目录结构就是你浏览器打开jupyter页面中的根目录。
    • new新建
      • python3:新建一个jupyter的源文件(重点)
        • 有cell组成:cell就是一行可编辑框。
        • cell的作用:
          • 用来根据不同的模式进行代码和笔记的编写。编写好的代码和笔记可以直接在当前文件中运行,查看到运行结果!
        • cell模式:
          • code:可以编写python代码
            • code模式的cell可以写一行代码或多行代码。
            • 特性:编写代码的顺序是无所谓的,但是执行代码的顺序一定是自上向下的。
              • 只需要在一个cell中定义相干变量或者函数或者类(相关定义),当该cell执行后,则定义的内容就会被加载到当前源文件的缓存中,那么表示在其他任意的cell中都可以直接使用之前定义好的加载到缓存中的定义。
            • markdown:编写笔记。可以使用markdown集成好的指令指定文字的样式,也可以直接使用html标签制定文字的样式。
        • folder:新建一个文件夹
        • text file:新建一个任意后缀的文本文件
          • 可以写程序,但是不能直接在该文件中运行。
        • terminal:新建一个基于浏览器的终端。
    • 快捷键的使用
      • 插入cell:a(在目标cell的上面插入一个cell),b(在目标cell的下面插入一个cell)
      • 删除cell:x,双击d
      • 执行cell:shift+enter
      • 切换cell的模式:m(将代码格式切换成笔记格式),y(将笔记格式切换成代码格式)
      • cell执行后,在cell的左侧双击就可以回到cell的可编辑模式
      • 执行结果的收回:在执行结果左侧双击即可
      • 打开帮助文档:shift+tab
      • 撤销:z

    三、爬虫概述

    • 什么是爬虫?
      • 就是通过编写程序,让其模拟浏览器上网,然后在互联网中抓取数据的过程
        • 关键词抽取:
          • 模拟:浏览器就是一个纯天然最原始的爬虫工具
          • 抓取:
            • 抓取一整张页面源码数据
            • 抓取一整张页面中的局部数据
    • 爬虫的分类
      • 通用爬虫
        • 要求我们爬取一整张页面源码数据
      • 聚焦爬虫
        • 要求爬取一张页面中的局部数据
          • 聚焦爬虫一定是建立在通用爬虫的基础上的。
      • 增量式爬虫
        • 用来监测网站数据更新情况,以便爬取到网站最新更新出来的数据
      • 分布式爬虫:
        • 提高爬虫效率的中级武器
    • 反爬机制
      • 是作用到门户网站中,如果网站不想让爬虫轻易爬取到数据,它可以制定相关的机制或措施阻止爬虫程序爬取其数据。
    • 反反爬机制
      • 是作用在爬虫程序中。我们爬虫可以制定相关的策略破解反爬机制从而爬取到相关的数据
    • 课程第一个反爬机制:
      • robots协议:防君子不妨小人
        • 是一个纯文本的协议,协议中规定该网站中哪些数据可以被那些爬虫爬取,哪些不可以。
      • 破解:
        • 你自己主观性的不遵从该协议即可
  • 相关阅读:
    dota监測
    C++ new malloc realloc
    LeetCode240:Search a 2D Matrix II
    Mentor.Graphics.FloTHERM.XT.2.3+Mentor.Graphics.Flowmaster.7.9.4
    怎样在Linux下使用Markdown进行文档工作
    用 Arduino Uno 给 Arduino Mini(Pro)烧录程序
    jQuery事件对象
    asp.net 获取系统的根目录
    C语言中将数字转换为字符串的方法
    ubuntu 12.04 64位设置兼容32位的实现
  • 原文地址:https://www.cnblogs.com/borntodie/p/14848889.html
Copyright © 2020-2023  润新知