• 机器巡检基本知识


    机器巡检基本知识

    巡检一般又厂商或者代理商来做。
    第一:首先是机房温度以及湿度的检查,当然这些一般情况都没问题。
             参考值:温度(摄氏 ℃)        10 ℃-40℃
                         湿度                           8% -80%
    第二:就是关于电源的检测,这个只要不是新装机,一般没问题。
            参考值: 零-地电压        小于1V
                         火-地电压        200-240V
            补充:当然59系列的机器相间380V,相地240V。
    第三:关于报错。


            主要查看硬件的永久性报错   #errpt -dH | pg
                        软件的永久性报错   #errpt -dS | pg

                        还有系统又没又报警灯(如果不正常,在后面的帖子将会细讲)
    第三:机器的序列号:#uname -Mu
    第四:操作系统版本:#oslevel -r      注:又时候不能使用是因为系统版本低的原因
    第五:其他检测

    执行sysdumpdev –l 检查dump是否设置为always allow sysdump
    执行sysdumpdev –e检查当前dump大小应该为主dump设备的大小的80%以下
    执行lsvg -l rootvg检查有否"stale"状态的逻辑卷
    执行lsps -s检查内存交换区占用情况
    执行df –k检查文件系统的分配状况,一般不要超过80%
    执行lsdev –Ccdisk检查硬盘状态为available
    执行lsdev –Ccadapter检查PCI卡状态为available
    执行lsdev –Cctape检查磁带机状态为available
    执行lsdev – Ccprocessor检查CPU状态为available
    执行 lsattr –El sys0|grep autorestart  检查系统crash后是否自动重新启动
    执行lsattr –El sys0|grep cpuguard检查CPU GUARD是否开启
    执行lsattr –El mem0检查内存状态正常size=goodsize
    执行 vmstat 2
    iostat,topas观察us,sy,pi,po,内存占用率,硬盘读写速度等检查是否有性能瓶颈
    执行netstat –innetstat –rn观察网络状态
    执行entstat –d enX检测网卡运行速率与交换机速率是否匹配(网卡速率由10M半工改为自适应时,缺省网关会丢失。更改网卡速率后需要在系统中执行smitty route操作重新激活缺省路由。如果进行网卡速率的调整,请务必小心。)
    执行ping命令检查网络连接状况
    执行lsdev –C|grep aio 检查异步IO是否可用
    执行lssrc –g cluster查看是否有三个进程均为active状态(这个主要看起了几个HA的进程了,有的时候是一个或两个)
    执行/usr/sbin/cluster/clstat –a查看cluster状态是否正常
    检查/etc/hosts, 确保双机配置中IP别名不会存在包含关系(share_ip1包含了share_ip)
    执行
    more /usr/es/adm/cluster.log
    more /usr/es/sbin/cluster/history/*
    cat /tmp/hacmp.out

    检查这三个日志中是否有error或者fail.
    检查7133面板上的指示灯,如果黄灯亮则需要诊断问题
    HOTspare 磁盘检测
    1、检查是否有raid保护 # smitty ssaraid--->List All Defined SSA RAID Arrays
    2、检查是否有Hot Spare # smitty ssaraid--->List Components in a Hot Spare Pool
    对于7133,执行Smitty ssaraid List All Defined SSA RAID Arrays查看7133 raid状态,正常应该为good状态。
    对于7133,执行Smitty ssaraidChange/Show Use of an SSA Physical Disk查看7133硬盘状态,正常应该为member或者spare状态
    对于FastT,分别登录上两个controller (登陆方法后面详细讲解),查看是否有错误日志。
    记录检查结果

    基本就是这些命令吧,如果我有遗漏后面继续补充。

    对了,如果是华为和IBM的联合巡检就会多出几个项目:

    cpu (主频*数量)    #lsattr -El proc0
    内置磁盘个数:  #lsdev -Ccdisk     
    网卡信息:        #lsdev -Ccadapter
  • 相关阅读:
    docker学习
    io性能调优之page cache
    ll命令执行后结果分析
    Angular2+ ViewChild & ViewChildren解析
    <router-outlet> 干什么用的?
    npm基本命令
    什么情况下会出现undefined
    关于VUE调用父实例($parent) 根实例 中的数据和方法
    vue中的this指向问题
    对 Foreach 的理解
  • 原文地址:https://www.cnblogs.com/elegantok/p/1338149.html
Copyright © 2020-2023  润新知