本文记录了一次搭建spark-standalone模式集群的过程,我准备了3个虚拟机服务器,三个centos系统的虚拟机。
环境准备:
-每台上安装java1.8
-以及scala2.11.x (x代表后面的版本随意)
-以及spark2.2.0
注意:scala和spark的版本要匹配,可以查看spark安装目录下的scala包的版本号来找相应的scala包。java要安装1.8的不然会报错。任务提交时driver会和集群节点传输文件所以集群中各个节点要保存driver的ssh公钥。
以上软件安装好后去到spark/sbin 目录下启动start-master,通过webUI看运行情况,浏览器输入http://10.217.2.240:8080/,IP是master的IP,端口在master输出的日志里面找。
然后启动slave程序,start-slave.sh spark://10.217.2.240:7077,IP是master的IP,端口在master的日志里面找。完了可以看slave节点的webUI,http://10.217.2.241:8081/,端口信息都在日志里面去找。
slave启动后可以在master的UI中看到slave的情况。(注意:如果在其他机器访问虚拟机中的UI访问不到有可能是防火墙的问题,执行systemctl stop firewalld.service,systemctl disable firewalld.service关闭虚拟机防火墙)
看到UI上面提示有worker的信息了,说明这个standalone集群就部署好了.