• 爬虫初入


    什么是爬虫?

    爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。

    爬虫的分类

    通用爬虫

      通用爬虫是搜索引擎“抓取系统”的重要组成部分,主要目的是将互联网上的内容下载到本地,形成一个互联网内容的镜像备份。简单来讲就是尽可能将网页下载到本地服务器进行备份,再对这些内容进行处理,最后提供一个用户检索接口。

    聚焦爬虫

      根据指定需求抓取互联网上指定的数据。

    反爬虫

      门户网站通过一定的策略和技术手段,防止爬虫程序进行网站数据的爬取。

    反反爬虫

      爬虫程序通过相应的技术和手段,破解门户网站的饭爬虫手段,从而爬取到相应的数据。

    工欲善其事必先利其器

    Jupyter Notebook是以网页的形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示。如在编程过程中需要编写说明文档,可在同一个页面中直接编写,便于作及时的说明和解释。

    Jupyter Notebook的主要特点

    1. 编程时具有语法高亮缩进tab补全的功能。
    2. 可直接通过浏览器运行代码,同时在代码块下方展示运行结果。
    3. 对代码编写说明文档或语句时,支持Markdown语法。

    安装

    安装前提

    安装Jupyter Notebook的前提是需要安装了Python3.3版本及以上,或2.7版本)。

    使用Anaconda安装

    建议大家通过安装Anaconda来解决Jupyter Notebook的安装问题,因为Anaconda已经自动为你安装了Jupter Notebook及其他工具,还有python中超过180个科学包及其依赖项。

    你可以通过进入Anaconda https://www.anaconda.com/download 自行选择下载;

     

    运行Jupyter Notebook

    启动doc运行窗口,输入jupyter notebook就会启动浏览器以网页形式打开。之后的操作自己稍加琢磨就会了。

     

     

    快捷键:

     

    b:向下插入一个cell

     

    a:向上插入一个cell

     

    m:cell的类型切换成markdown类型

     

    y:cell的类型切换成code类型

     

    shift+enter:执行cell

     

    shift+tab:查看模块的帮助文档

     

    tab:自动补全

     

  • 相关阅读:
    [BZOJ1004] [HNOI2008]Cards解题报告(Burnside引理)
    [POJ1286&POJ2154&POJ2409]Polya定理
    monkey工具介绍及用法
    adb 命令使用与解释
    android-sdk的安装及配置
    spring-boot 加入拦截器Interceptor
    对spring boot 之AutoConfiguration 的理解
    java 集合操作小结
    java -d . **.java 与 java **.java 的区别
    关于Eclipse SVN 分支 与主干 小结
  • 原文地址:https://www.cnblogs.com/yuliangkaiyue/p/9962409.html
Copyright © 2020-2023  润新知