SGE集群可能出现独列错误状态。此时,使用命令 qstat -f 检测集群队列队列状态。最后一列stats若为空,则表示队列状态正常,可以用于任务提交。其它状态解释如下:
a: 负载超限了,开启警报alarm。
A: 超限暂替,开启警报Alarm。
E: 队列有错误,不能提供任务提交服务了。
au:主机和SGE系统连接中断,此时负载状态为-NA-。需要重启相应服务器的sgeexecd命令。
当节点处于E状态时,需要使用root用户在对应的主机中重启sge计算服务:
/opt/sysoft/sge/default/common/sgeexecd restart
然后,清除队列中的错误信息:
qmod -c all.q