Apache Spark介绍及集群搭建

简介

Spark是一个针对于大规模数据处理的统一分析引擎。其处理速度比MapReduce快很多。其特征有：

1、速度快

spark比mapreduce在内存中快100x,比mapreduce在磁盘中快10x
spark比mapreduce快的主要2个原因：
　　1）spark的job中间结果数据可以保存在内存中，mapreduce的job中间结果数据只能够保存在磁盘。后面又有其他的job需要依赖于前面job的输出结果，对于spark来说，直接可以从内存获取得到，
大大减少磁盘io操作，对于mapreduce来说就需要进行大量磁盘io操作，性能来说肯定是降低了。
　　2）mapreduce以进程的方式运行在整合yarn中，比如一个job有100个mapTask,这个时候运行100个map task就需要启动100个进程。
spark以线程的方式运行的进程中，运行100个map task可以只启动1个进程，在一个进程中运行100个线程。启动一个进程和启动一个线程时间代价肯定不一样，启动进程需要的时间和调度大大增加。

2、易用性

可以快速写一个Spark应用程序通过 java/scala/python/R/SQL不同的语言去进行代码开发

3、通用性

Spark框架是一个生态系统，有很多不同的模块（sparksql、sparkStreaming、Mlib、Graphx）应用到不同的业务场景中。

4、兼容性

Spark程序就是一个计算任务的程序，哪里可以给当前这个任务提供对应的资源，我们就可以把这个任务提交到哪里去运行。

standAlone
    spark自带的集群模式，任务的资源分配由Master负责。

yarn
    spark可以把任务提交到yarn中去运行，任务的资源分配由resourceManager负责

mesos
    是一个apache开源的类似于yarn的资源管理平台

Spark集群的安装部署

1 新建文件夹，分别用来存放压缩包、解压后的文件

mkdir -p /export/software   
mkdir -p /export/servers

2 把安装文件放到服务器上的software文件夹内然后解压到servers文件夹内

cd /export/software    
tar -zxvf spark-2.1.3-bin-hadoop2.7.tgz -C /export/servers/
cd /export/servers
mv spark-2.1.3-bin-hadoop2.7 spark

3 修改配置文件

cd /export/servers/spark/conf
mv spark-env.sh.template spark-env.sh
vim spark-env.sh

#指定java环境变量
export JAVA_HOME=/export/servers/jdk1.8.0_141

#指定spark集群中老大地址 
export SPARK_MASTER_HOST=node1 
#指定spark集群中老大端口 
export SPARK_MASTER_PORT=7077

mv slaves.template slaves
vim slaves 

#指定哪些节点是worker
node2
node3

4 添加spark的环境变量

vim  /etc/profile

export SPARK_HOME=/export/servers/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

5 分发spark的安装目录和spark变量

scp -r spark node2:/export/servers
scp -r spark node3:/export/servers

scp /etc/profile node2:/etc
scp /etc/profile node3:/etc

6 在所有节点执行脚本

source /etc/profile

启动和关闭Spark集群

在主节点上的spark目录下sbin目录执行
./start-all.sh
./stop-all.sh

7 基于zk构建Spark HA集群

#安装zk集群

#修改配置文件
vim spark-env.sh

#需要注释掉手动指定那个节点是master
#指定spark集群中老大地址
#export SPARK_MASTER_HOST=node1

#引入zk相关配置 构建sparkHA
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER  -Dspark.deploy.zookeeper.url=node1:2181,n
ode2:2181,node3:2181  -Dspark.deploy.zookeeper.dir=/spark"

#分发spark-env.sh 到其他节点
scp spark-env.sh node2:$SPARK_HOME/conf
scp spark-env.sh node3:$SPARK_HOME/conf

#启动zk器群
#启动spark集群

#为了保证master的高可用 可以在其他节点单独启动Master
sbin/start-master.sh

Spark集群的管理界面：

master主机名或者ip:8080

相关阅读:
算法-回溯法
 算法-动态规划=背包问题
 算法-贪心算法
 算法-KMP模式匹配算法
 算法-两点之间最短路径
 Hibernate学习笔记
 MyBatis一级缓存和二级缓存
 使用MyBatis-Gererator自动生成Dao.Model.Mapping相关文件
 MyBatis中一对多和多对一的学习详解
 MyBatis中使用添加判断进行查询
原文地址：https://www.cnblogs.com/blazeZzz/p/9829503.html