Spark 完全分布式搭建

1. scala 安装

1、准备工作

scala：scala-2.13.6.tar.gz

2、安装

// 将 scala-2.13.6.tar.gz 拷贝到 /home/hadoop/apps 解压

cd /home/hadoop/apps
tar -zxvf scala-2.13.6.tar.gz 

// 环境变量配置
export SCALA_HOME=/home/hadoop/apps/scala-2.13.6
export PATH=$PATH:$SCALA_HOME/bin

source ~/.bashrc

2. spark 安装

2.1 准备工作

下载地址，用的包版本：spark-2.2.0-bin-hadoop2.7.tgz

集群规划

	Master	Worker
hadoop1: 192.168.131.137	1	1
hadoop2: 192.168.131.138		1
hadoop3: 192.168.131.139		1

2.2 详细步骤

1、解压

cd /home/hadoop/apps
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz

// 修改名称（名字太长）
mv spark-2.2.0-bin-hadoop2.7.tgz spark-2.2.0

2、修改配置文件

修改 spark-env.sh

cd spark-2.2.0/conf
mv spark-env.sh.template spark-env.sh
vim spark-env.sh 

// 添加以下内容
export JAVA_HOME=/home/hadoop/apps/jdk1.8.0_261
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.5/etc/hadoop

// 设置Master的主机名
export SPARK_MASTER_HOST=hadoop1
// 提交Application的端口，默认就是这个，万一要改呢，改这里
export SPARK_MASTER_PORT=7077
// 每一个Worker最多可以使用的cpu core的个数，我虚拟机就一个...
// 真实服务器如果有32个，你可以设置为32个
export SPARK_WORKER_CORES=1
// 每一个Worker最多可以使用的内存，我的虚拟机就2g
// 真实服务器如果有128G，你可以设置为100G
export SPARK_WORKER_MEMORY=1g
export SPARK_HOME=/home/hadoop/apps/spark-2.2.0
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export SCALA_HOME=/home/hadoop/apps/scala-2.13.6

修改 slaves

mv slaves.template slaves
vim slaves

// 添加以下内容，配置 Worker 节点
#localhost
hadoop1
hadoop2
hadoop3

3、重命名 SPARK_HOME/sbin下的start-all.sh和stop-all.sh，防止与 hadoop/sbin 中的冲突

cd spark-2.2.0/sbin
mv start-all.sh start-spark-all.sh
mv stop-all.sh stop-spark-all.sh

4、配置环境变量

vim ~/.bashrc
export SPARK_HOME=/home/hadoop/apps/spark-2.2.0
export PATH=$PATH:$SPARK_HOME/bin

source ~/.bashrc

5、分发到其他节点

sh xscp.sh spark-2.2.0/

6、启动 Spark 集群

cd spark-2.2.0/sbin/

// 启动
start-spark-all.sh

// 停止
stop-spark-all.sh

7、WebUI：http://192.168.131.137:8080/

2.3 参考文章

相关阅读:
SET ROWCOUNT,SET NOCOUNT
JS是按值传递还是按引用传递?
Debug目录、Release目录，bin目录、obj目录，vshost.exe.config文件、.exe.config文件分析【C#】
写window应用程序日志System.Diagnostics.EventLog.WriteEntry
X-UA-Compatible设置兼容模式
Linq的Distinct方法的扩展
SQL Server 系统表简介
sql server 常用的系统存储过程
C# Timer用法及实例详解
ASP.NET MVC内置的Filter实现介绍

原文地址：https://www.cnblogs.com/midworld/p/15390693.html