• Spark 基本概念 & 安装



    1. Spark 基本概念

      1.0 官网 

      传送门

      1.1 简介

      Spark 是用于大规模数据处理的快如闪电的统一分析引擎。

      1.2 速度

      Spark 可以获得更高的性能,针对 batch 计算和流计算都可以。

      用到了 DAG scheduler (有向无环图调度器)、查询优化器、物理执行引擎

      同 Hadoop 进行逻辑回归测试,Spark 速度超过 Hadoop 100x 倍。

      

      1.3 易用性

      Spark 提供了 80+ 个高级算子,可以轻松构建并行 app

      支持多种语言,Java、Scala、Python、R 和 SQL shell
      

      1.4 通用性

      Spark 有5大模块,Core 、SQL 、Streaming 、MLlib 、GraphX
      可以对 SQL 和 Streaming 以及复杂分析进行组合应用。

      

      1.5 执行场景
      spark可以运行在 Hadoop 、Mesos 、standalone 、云上。
      可以访问多种数据源。

      



    2. 安装 Spark

      2.1 解压

    tar -xzvf spark-2.1.0-bin-hadoop2.7.tgz -C /soft/

      2.2 创建符号链接

    ln -s /soft/spark-2.1.0-bin-hadoop2.7 /soft/spark

      2.3 配置环境变量

    # 编辑环境变量配置文件
    sudo vi /etc/profile

    # spark 环境变量 export SPARK_HOME
    =/soft/spark export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

      2.4 生效环境变量

    source /etc/profile

      2.5 启动 spark shell

      【启动前提】

    # 启动 ZooKeeper 集群
    xzk.sh start
    
    # 启动 HDFS
    start-dfs.sh
    
    # 启动 Spark 服务,在 spark/sbin 目录下执行
     ./start-all.sh

      【启动】

    [centos@s101 /soft/spark/bin]$ spark-shell 

       


    且将新火试新茶,诗酒趁年华。
  • 相关阅读:
    乐观锁配置
    @NotBlank注解地正确使用
    Navicat Premium 12.1手动激活
    nacos将服务注册到命名空间
    springcloud中微服务远程调用
    常用的运算符的操作
    时间复杂度和空间复杂度
    前后端分离跨域问题cors
    数据库迁移on_delete 以及NodeNotFoundError问题解决
    python去重后保证顺序不变
  • 原文地址:https://www.cnblogs.com/share23/p/9755209.html
Copyright © 2020-2023  润新知