Spark集群的搭建

一、前提条件

1.1创建3台虚拟机，且配置好网络，建立好互信。

1.2 Java1.8环境已经配置好

1.3 Hadoop2.7.7集群已经完成搭建，具体参见我的博客https://www.cnblogs.com/theyang/p/12363276.html

1.4 Scala软件包和Spark软件包的下载：

https://www.scala-lang.org/download/

http://spark.apache.org/downloads.html

二、安装Scala

2.1将下载的Scala上传到虚拟机

2.2解压安装包到指定路径/opt/soft(没有自行创建)：tar -zxvf scala-2.13.0.tgz -C /opt/soft

2.3配置环境变量

vi /etc/profile
SCALA_HOME=/opt/soft/scala-2.13.0 
PATH=$PATH:$SCALA_HOME/bin

三、Scala验证安装

[root@master data]# scala
Welcome to Scala 2.13.1 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_161).
Type in expressions for evaluation. Or try :help.

scala>

四、安装Spark

4.1将下载的Spark上传到虚拟机

4.2解压安装包到指定路径：tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz -C /opt/soft

4.3配置环境变量

vi /etc/profile
SPARK_HOME=/opt/soft/spark-2.4.4-bin-hadoop2.7 
PATH=$PATH:$SPARK_HOME/bin

上述Scala和Spark环境变量配置好后的profile文件如下图

4.4配置完环境变量记得

source /etc/profile

4.5在spark-env.sh文件加入以下内容(没有这个文件的话复制一个spark-env.sh.template修改成spark-env.sh)

export JAVA_HOME=/opt/soft/jdk1.8     #jdk的安装目录
export SCALA_HOME=/opt/soft/scala-2.13.1  #scala的安装目录
export HADOOP_HOME=/opt/soft/hadoop2.7　　#hadoop安装目录
export HADOOP_CONF_DIR=/opt/soft/hadoop2.7/etc/hadoop  #hadoop安装目录下对应的文件
export SPARK_MASTER_HOST=hadop51　　　　　　#本机的名字 可在/etc/hostname里修改 注意：集群的各个机器对应各自的主机名
export SPARK_WORKER_MEMORY=1g　　　　　　　 #Spark应用程序Application所占的内存大小
export SPARK_WORKER_CORES=2　　　　　　　　　#每个Worker所占用的CPU核的数目
export SPARK_HOME=/opt/soft/spark-2.4.4-bin-hadoop2.7 #spark安装目录
export SPARK_DIST_CLASSPATH=$(/opt/soft/hadoop2.7/bin/hadoop classpath) #hadoop安装目录对应的文件

4.6slaves配置(没有这个文件的话复制一个slaves.template修改成slaves)

加入以下配置(三台主机名)

五、复制到其他节点

5.1在第一台机器节点上安装配置完成Spark后，将整个spark目录拷贝到其他节点，并在各个节点上更新/etc/profile文件中的环境变量

scp -r /opt/soft/spark-2.4.4-bin-hadoop2.7/ root@hadop52:/opt/soft/
scp -r /opt/soft/spark-2.4.4-bin-hadoop2.7/ root@hadop53:/opt/soft/

把profile文件也复制过去，省得再去配置环境变量：
scp /etc/profile root@hadop52:/etc/
scp /etc/profile root@hadop53:/etc/

5.2复制完后记得在其它节点

source /etc/profile

六、测试Spark

6.1在主节点启动Hadoop集群

start-all.sh

6.2在主节点启动spark集群

cd /opt/soft/spark-2.4.4-bin-hadoop2.7/sbin/
./start-all.sh

6.3打开浏览器输入http://ip:8080，看到如下活动的Workers，证明安装配置并启动成功

相关阅读:
正则表达式
 正则表达式-量词
 正则表达式-字符组
 6月学习总结
 利用Magick和gs实现pdf到jpg的转换
 NGS Antenna Calibrations
VS2017运行旧版本下的C程序工程
 C#.NET SQLite自适应32位/64位系统
 RAID1环境下外挂第三块硬盘
 修复 Fontconfig Error
原文地址：https://www.cnblogs.com/theyang/p/12716688.html

最新文章
spring 框架中的各部分知识点
 idea 部分按钮中的功能
 git 初用
 idea 注册验证失败
 对象
 函数
 条件判断
 Appium的安装
 selenium环境配置
 python-布尔表达式