spark、hadoop集群添加节点

1、首先添加hdfs的节点，将安装包上传到服务器，设置好环境变量。配置文件按之前spark集群搭建的那里进行修改。

设置完成后，要对新节点新型格式化：

# hdfs dfs namenode -format

生成公钥、私钥，配置免密登录：

ssh-keygen -t rsa

一直回车就好了，会在用户的家目录下生成.ssh目录，里面有公钥和私钥。需要处建一个新的文件叫authorized_keys,将自己的公钥和master服务器上的公钥都放到这个文件里面，并将自己的公钥copy到master服务器的authorized_keys文件里面。

# chmod 600 authorized_keys

然后将自己的主机名添加到所有的节点服务器的hosts文件里，并将其他的节点主机名也添加到自己的hosts文件里。

启动服务：

./start-dfs.sh

！然后在namenode,查看集群情况:

# hdfs dfsadmin -report

！最后还需要对hdfs负载设置均衡，因为默认的数据传输带宽比较低，可以设置为64M，即hdfs dfsadmin -setBalancerBandwidth 67108864

！默认balancer的threshold为10%，即各个节点与集群总的存储使用率相差不超过10%，我们可将其设置为5%，启动Balancer：

#sbin/start-balancer.sh -threshold 5

等待集群自均衡完成

2、添加spark节点

上传spark的安装包，然后按之前集群上的配置文件进行修改：

首先是将主机名添加到各自的hosts文件，并修改spark的conf目录下的slaves文件，将主机名添加到此处。

启动服务：

在master上：

#./stop-all.sh

#./start-all.sh

访问spark服务器的8080端口，查看节点是否添加成功。

相关阅读:
js push(),pop(),shift(),unshift()
bootstrap fileinput 上传文件
关于dataTable 生成JSON 树
postgresql+ C#+ DHTMLX 学习汇总
java_时间戳与Date_相互转化的实现代码
SparkML之推荐算法ALS
ALS部署Spark集群入坑记
test
迁移数据库mysql
JVM运行机制

原文地址：https://www.cnblogs.com/cuishuai/p/7795015.html