1、 关闭主机添加内存
登录指定主机系统(按表二依次操作),切换至root用户,输入poweroff命令关闭系统,待系统关闭后,由IT负责人进行内存扩容。
2、 开机检查内存信息
由IT负责人检查扩容主机的内存信息,确定内存扩容完成后再进入系统。
3、 登录系统启动服务
登录系统,切换至root用户进行如下操作。
注意:启动每个主机节点的服务顺序,依次是Ambari、Zookeeper、YARN、HDFS,HIVE(如下)。
3.1、检查PID文件
PID目录为/var/run/服务名称,检查对应服务的PID文件是否存在,如果存在则删除(rm –r 文件名)。
3.2、启动ambari-agent(所有节点)
输入命令:service --status-all检查服务是否运行,主要是检查ambari-agent和ambari-server
如果ambari-agent没有运行,则执行下面启动步骤
输入命令:service ambari-agent start
3.2、启动ambari-server(22节点)
输入命令:service ambari-server start(服务停止时)
检查日志:tail -200 /var/log/ambari-server/ambari-server.out
3.3、启动Zookeeper
登录到ambari-server管理页面,手动启动Zookeeper服务。
3.4、启动YARN相关服务
登录到ambari-server YARN管理页面,手动启动Yarn服务。
3.5、启动HDFS相关服务
登录到ambari管理主页,按照上表一中列举的主要运行服务,按顺序启动服务:
A、 ZKFailoverController (ZKF负责Namenode HA,优先启动)
B、 JournalNodes
C、 Namenode
3.6、启动HIVE相关服务
登录到ambari管理主页,按照上表一中列举的主要运行服务,按顺序启动服务:
A、 MySQL (MySQL启动后检查数据库是否可用,因为Metastore依赖MYSQL服务)
B、 Hive Metastore
C、 HiveServer2
D、 WebHCat Server
3.7、启动其他服务
登录到ambari管理主页,按照上表一中列举的主要运行服务,依次启动。
4、 检查各个节点主要服务
4.1、Zookeeper检查
登录到目标主机节点,使用Zkcli.sh切换到Zookeeper命令行,检查根目录是否能正常查询;
检查Zookeeper启动日志,根据日志查看服务是否正常运行。
4.2、Namenode检查
登录到ambari-server HDFS管理页面,检查Namenode HA状态;
检查主从Namenode节点日志,根据日志输出观察服务是否正常运行。
5、 故障排除
上述步骤的3描述的服务遇到启动失败等异常,首先检查日志输出,根据日志描述排查问题。
可能出现的异常
Q:PID文件未删除导致服务启动失败。
A:删除PID文件重新启动服务;
Q:Namenode HA状态异常。
A:检查ZKFailoverController服务是否正常启动;
Q:Mysql服务启动失败。
A:删除mysql.sock、mysqld.pid文件,重新启动服务。