Spark 基本概念 & 安装

Spark 基本概念 & 安装
1. Spark 基本概念

　　1.0 官网

　　传送门

　　1.1 简介

　　Spark 是用于大规模数据处理的快如闪电的统一分析引擎。

　　1.2 速度

　　Spark 可以获得更高的性能，针对 batch 计算和流计算都可以。

　　用到了 DAG scheduler (有向无环图调度器)、查询优化器、物理执行引擎

　　同 Hadoop 进行逻辑回归测试，Spark 速度超过 Hadoop 100x 倍。

　　

　　1.3 易用性

　　Spark 提供了 80+ 个高级算子，可以轻松构建并行 app

　　支持多种语言，Java、Scala、Python、R 和 SQL shell
　　

　　1.4 通用性

　　Spark 有5大模块，Core 、SQL 、Streaming 、MLlib 、GraphX
　　可以对 SQL 和 Streaming 以及复杂分析进行组合应用。

　　

　　1.5 执行场景
　　spark可以运行在 Hadoop 、Mesos 、standalone 、云上。
　　可以访问多种数据源。

　　

2. 安装 Spark

　　2.1 解压
```
tar -xzvf spark-2.1.0-bin-hadoop2.7.tgz -C /soft/
```
　　2.2 创建符号链接
```
ln -s /soft/spark-2.1.0-bin-hadoop2.7 /soft/spark
```
　　2.3 配置环境变量
```
# 编辑环境变量配置文件
sudo vi /etc/profile

# spark 环境变量 
export SPARK_HOME=/soft/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
```
　　2.4 生效环境变量
```
source /etc/profile
```
　　2.5 启动 spark shell

　　【启动前提】
```
# 启动 ZooKeeper 集群
xzk.sh start

# 启动 HDFS
start-dfs.sh

# 启动 Spark 服务，在 spark/sbin 目录下执行
 ./start-all.sh
```
　　【启动】
```
[centos@s101 /soft/spark/bin]$ spark-shell 
```
　　
且将新火试新茶，诗酒趁年华。
相关阅读:
乐观锁配置
 @NotBlank注解地正确使用
 Navicat Premium 12.1手动激活
 nacos将服务注册到命名空间
 springcloud中微服务远程调用
 常用的运算符的操作
 时间复杂度和空间复杂度
 前后端分离跨域问题cors
数据库迁移on_delete 以及NodeNotFoundError问题解决
 python去重后保证顺序不变
原文地址：https://www.cnblogs.com/share23/p/9755209.html

Spark 基本概念 & 安装

1. Spark 基本概念

2. 安装 Spark