机器巡检基本知识

机器巡检基本知识

      主要查看硬件的永久性报错 #errpt -dH | pg

                  软件的永久性报错 #errpt -dS | pg

                  还有系统又没又报警灯（如果不正常，在后面的帖子将会细讲）

第三：机器的序列号：#uname -Mu

第四：操作系统版本：#oslevel -r    注：又时候不能使用是因为系统版本低的原因

第五：其他检测

执行sysdumpdev –l 检查dump是否设置为always allow sysdump
执行sysdumpdev –e检查当前dump大小应该为主dump设备的大小的80％以下
执行lsvg -l rootvg检查有否"stale"状态的逻辑卷

执行lsps -s检查内存交换区占用情况
执行df –k检查文件系统的分配状况,一般不要超过80%

执行lsdev –Ccdisk检查硬盘状态为available
执行lsdev –Ccadapter检查PCI卡状态为available

执行lsdev –Cctape检查磁带机状态为available
执行lsdev – Ccprocessor检查CPU状态为available

执行 lsattr –El sys0|grep autorestart  检查系统crash后是否自动重新启动
执行lsattr –El sys0|grep cpuguard检查CPU GUARD是否开启
执行lsattr –El mem0检查内存状态正常size=goodsize

执行 vmstat 2
iostat,topas观察us,sy,pi,po，内存占用率，硬盘读写速度等检查是否有性能瓶颈

执行netstat –in和netstat –rn观察网络状态
执行entstat –d enX检测网卡运行速率与交换机速率是否匹配（网卡速率由10M半工改为自适应时，缺省网关会丢失。更改网卡速率后需要在系统中执行smitty route操作重新激活缺省路由。如果进行网卡速率的调整，请务必小心。）

执行ping命令检查网络连接状况

执行lsdev –C|grep aio 检查异步IO是否可用

执行lssrc –g cluster查看是否有三个进程均为active状态（这个主要看起了几个HA的进程了，有的时候是一个或两个）

执行/usr/sbin/cluster/clstat –a查看cluster状态是否正常

检查/etc/hosts, 确保双机配置中IP别名不会存在包含关系（share_ip1包含了share_ip）

执行
more /usr/es/adm/cluster.log
more /usr/es/sbin/cluster/history/*
cat /tmp/hacmp.out

检查这三个日志中是否有error或者fail.
检查7133面板上的指示灯，如果黄灯亮则需要诊断问题
HOTspare 磁盘检测
1、检查是否有raid保护 # smitty ssaraid--->List All Defined SSA RAID Arrays
2、检查是否有Hot Spare # smitty ssaraid--->List Components in a Hot Spare Pool
对于7133，执行Smitty ssaraid List All Defined SSA RAID Arrays查看7133 raid状态，正常应该为good状态。
对于7133，执行Smitty ssaraidChange/Show Use of an SSA Physical Disk查看7133硬盘状态，正常应该为member或者spare状态
对于FastT，分别登录上两个controller （登陆方法后面详细讲解），查看是否有错误日志。
记录检查结果

基本就是这些命令吧，如果我有遗漏后面继续补充。

对了，如果是华为和IBM的联合巡检就会多出几个项目：

cpu （主频*数量）   #lsattr -El proc0
内置磁盘个数：  #lsdev -Ccdisk
网卡信息：       #lsdev -Ccadapter

查看cluster是否启动:
lssrc -g cluster

启动和停止cluster
#smitty clstart /smitty clstop

,查看cluster服务情况
# tail –f /var/hacmp/log/hacmp.out

查看cluster是否启动:
lssrc -g cluster

启动和停止cluster
#smitty clstart /smitty clstop

,查看cluster服务情况
# tail –f /var/hacmp/log/hacmp.out

查看ha ip服务情况
#/usr/sbin/cluster/clstat

# netstat –in (查看网络状态信息)

1、运行lsdev 命令配以各种参数，所列各种设备状态都应为Available。

#lsdev –C –H –S a 列出系统中可用设备。

#lsdev –Cc processor 列出系统中的所有CPU。

#lsdev –Cc memory 列出系统中的所有内存。

#lsdev –Cc disk 列出系统中的所有硬盘。

#lsdev -Cc adapter | grep ent 列出系统中的所有网卡

#lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。

#lsdev -Cc adapter | grep ssa 列出系统中的所有SSA卡。

2、lspv命令

#lspv 显示系统中可用的PV。

#lspv hdiskn 显示hdiskn的具体信息。

#lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息。

对SSA硬盘的检测：在对主机进行工作之前可以先把磁盘阵列上电，等主机完全启动后，登录到主机上，运行以下命令“ lsdev –Cc pdisk “,应该可以看到所有SSA硬盘，并且状态应为Available.。

3、 lsattr命令

# lsattr –E –l mem0 列出系统中内存mem0的大小，本项目中内存有4GB。

4 、lsvg命令

#lsvg 列出系统中所有的vg。

#lsvg rootvg 列出rootvg的详细信息。

#lsvg –o 列出激活的vg

5、 oslevel命令

#oslevel 显示操作系统版本信息。

6、 netstat命令

#netstat –in 显示系统中各网卡的配置。可查看网卡的IP配置好了没有。

7、 # diag 命令

通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件，检测结果为 “No trouble found ”显示各部分工作正常。

8、使用#diag命令

（选择：Task Selection-> SSA Service Aids）对SSA硬盘链路连接的校验，可以通过SSA 工具里的Link Verification 来检测。如有必要，可以用 Certify Disk运行硬盘诊断部分进行硬盘的表面分析测试，由1% 至100%，检测结果显示主机内置硬盘的所有扇区均读写正常。

9、 lsps –a 查看PAGING SPACE的使用情况

如果使用率超过70%，就需要采取措施。

10、 lsvg –o | lsvg –il | grep –i stale

查看有无stale的lv，如果输入该命令之后有输出结果，就需要采取措施

11、有否发给root用户的错误报告(mail)。

12、检查双机状态

lssrc –g cluster 检查ha三个工作进程是否激活，/usr/sbin/cluster/clstat –a检查双机状态是否up，并检查hacmp.out日志，看是否有异常信息。

13、用vmstat, topas，sar 命令检查系统性能

检查cpumemoyrIO ，是否存在性能瓶颈。

14、检查能否顺利进入CDE界面

如果不能进入的话，要检查/etc/hosts表中有否错误的项目。

15、用smitty ssaraid 查看磁盘阵列RAID盘的状态是否是Good。

如果是degrade或其他状态表示RAID盘出现问题了

16、 用sysdumpdev –l 查看系统的DUMP设置是否正常。

17、用instfix –ik | grep ML

当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。一般要求433操作系统补丁要打到10以上，5.1操作系统补丁要打到5以上

18 、使用df –kP查看磁盘空间占用率

请确保以下文件系统的占用率高于80%立即上报：

/ /var /usr /home /tmp /zxindata/zxinbak，其余文件系统的占用率高于95%立即上报

也可以到各文件系统下使用组合命令：find . –size +2048 –o ctime 1 –exec ls –l {} ; 查出大于1M或一天之内修改过的文件。

19、系统性能

内存：svmon、lsps -a

Cpu ：sar

硬盘：iostat

文件系统：filemon

其他命令： vmstat、topas、lvmstat

20、磁带机是否需要清洗

/usr/lpp/diagnostics/bin/utape -cd rmt0 –n

显示结果为磁带机使用的小时数，若大于72小时，则不论磁带机黄灯是否亮都应用清洁带清洗

21、syncd 参数

值：缺省值：60；范围：1 到任何正整数

显示： grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot

更改：更改在下次引导后有效，而且是永久有效。备用方法是使用命令 kill 来终止守护程序

syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。

诊断：当 syncd 正在运行时，文件的 I/O 被阻塞了。

调整：在缺省级别上，这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整

性对于 HACMP而使 syncd interval 明显缩小，会导致性能下降。

更改命令为： #vi /sbin/rc.boot

22、检查 errdaemon, srcmstr 是否正常运行

# ps -ef|grep err

# ps -ef|grep src

2.4.性能监控与调优

通过命令vmstat 1 来观察.

kthr memory page faults cpu

----- ----------- ------------------------ ------------ -----------

r b avm fre re pi po fr sr cy in sy cs us sy id wa

命令解析：vmstat 命令的输出可以反映系统整体运行状况，包括cpu、内存、虚拟页面、系统进程和系统调用情况。

检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值.

检查MEM是否为瓶颈,分别检查Memory的两项数值和Page 的六项数值.

命令解析： sar可以用来收集反映系统运行状况，在这里主要是查看CPU的运行状况，CPU是否负载均衡,是否存在分配不均的情况。

通过命令ps gv | more来观察。

PIDTTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND

0 - A 4:20712 14516xx 0 14504 0.0 5.0 swapper

1 - A 1:33 103 78952 79044 327682536 0.0 29.0 /etc/init

命令解析：ps可以用来查看进程的当前状态。在这里通过参数的配搭，可以观察目前正在运行的进程所耗的时间,CPU和memory 量.其中，%CPU表示进程所占用的CPU资源情况，%MEM表示进程所占用的内存情况。主要检查是否有标示为的僵尸进程耗用系统资源，以及informix 数据库的oninit进程的系统消耗情况。

在机器上用dd命令进行磁盘阵列的写操作校验，与此同时用iostat 1 –d hdiskX观察磁盘。

Disks: % tm_act Kbps tpsKb_read Kb_wrtn

命令解析: iostat可以用来查看系统的 I/O的输入输出情况，在这里主要查看阵列上的硬盘的每秒读写量，同时估算磁盘阵列读写速度HHhHhh

通过命令netstat –a 进行查看。

Active Internet connections (including servers)

Proto Recv-Q Send-Q Local Address Foreign Address (state)

命令解析: netstat可以用来查看系统的网络情况，在这里主要是查看网络客户端连接的情况和开销，检查参数为state，如有死连接，state状态为fin_wait, 这样耗用系统网络资源，从而导致网络性能下降构成瓶颈。

2.5.安全工作守则

a.系统定期进行系统备份，系统盘建议镜像。

b.当有系统变更或进行操作系统补丁安装的时候，必须作一次系统备份。

c.在7133和shark发现有硬盘故障的时候，请提醒客户注意当天的数据备份。在更换硬盘的时候，请确认当天数据备份已经完成。

d.在更换敏感的电子元件，时候一定要防静电。

e.在插拔外围设备的时候，请把外围设备下电。

f.在进行主机微码升级时候，请留意微码的完整性。

g.在进行文件删除的时候，请留意当前路径是否正确。

h.在进行文件解压缩的时候，请留意参数和路径。

3. 系统日常维护流程

3.1.系统启动

系统启动正常顺序如下：

首先对外设（磁盘阵列、磁带库等）加电。

待所有外设加电自检完成后，主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色POWER键起机.

启动主机HACMP，启动后可用命令 tail -f /tmp/hacmp.out 来检查启动情况，在HACMP未完全启动前不要进行下一步。

检查服务器的网络地址，路由表(可用netstat -i , netstat -rn 等)，检查文件系统，逻辑卷(可用 mount , lsvg -o 等)。

检查各项应用是否工作正常。

3.2.系统关闭

停止HACMP ( smitty clstop)。

查看HACMP的状态，检查服务器的网络地址，路由表(可用netstat -i , netstat -rn 等)，检查文件系统，逻辑卷(可用 mount , lsvg -o 等)。在HACMP未完全停止前不要进行下一步。

关闭主机 (shutdown –F)。重启系统可以使用：shutdown -Fr

如有必要的话，按磁盘阵列前方的白色按钮关闭磁盘阵列。

3.3.查看系统的错误记录

在系统运行时，一些系统错误会记录在errlog 中，其中有些错误还会在终端上显示。检查错误日志可用以下命令：

#errpt|more 查看系统所有的记录

IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION

E85C5C4C0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR

2BFA76F60426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER

9D4CF6E70426104399 T O errdemon ERROR LOGGING TURNED ON

1E2AC07E0426103999 T O errdemon ERROR LOGGING TURNED OFF

1E5EER4T0423132999 T O clstrmgr OPERATOR NOTIFICATION

其中

IDENTIFIER 为错误编号，当需要检查详细信息时常会用到。

TIME STAMP 为时间标签，它记录的是出错时间，其格式:月月日日时时分分年年

T 为Type , 它记录的是错误类型

P ：为永久错误，需引起注意

T ：为临时错误。

C 为Class, 它记录的是错误种类，如

H : Hardware

S : Software

O : Errloger command messages

U : undetermined

RESOURCE_NAME 为错误来源

DESCRIPTION 为错误描述

#errpt -aj 查看系统详细记录内容

其中IDENTIFIER为错误编号，如 #errpt -aj 0426104399

#errpt -dH 查看系统所有的硬件出错记录

3.4.系统与数据备份

有效及时的系统备份是系统管理的非常重要的一环。当系统出现故障时，特别是文件系统被严重损坏或硬盘损坏时，常需要使用系统备份来恢复系统。在以下情况下应做系统备份：

1、新装机。在硬件及系统软件安装完成后，应做系统备份。

2、软件改动。系统软件或应用软件有改动时，应做系统备份。

3、定期备份。对系统进行定期备份，最好每两或三个月做一次备份

备份注意事项：

进行系统备份无须停止业务，业务可以继续进行。

建议客户进行定期的系统备份（使用命令smitty mksysb）。客户也可根据需要利用SMIT对系统的特定的VG或FS进行备份。

smitty mksysb只备份rootvg中mount起来的文件系统，其它文件系统或数据并没有做备份，所以数据备份需要另外完成（建议客户使用TAR格式）

在条件允许的情况下，最好有一盘以上备份带，以防止磁带损坏。

系统备份过程中有时候会提示有些/tmp目录下的文件无法备份，显示如下：

Creating list of files to back up...

Backing up 34025 files..............................

1694 of 34025 files (4%)..............................

2733 of 34025 files (8%).........backup: 0511-449 An error occurred accessing ./

tmp/sh34736.1: A file or directory in the path name does not exist.

backup: 0511-449 An error occurred accessing ./tmp/sh34736.2: A file or director

y in the path name does not exist.

backup: 0511-449 An error occurred accessing ./tmp/sh34736.3: A file or director

y in the path name does not exist.

.....................

15458 of 34025 files (45%)..............................

31920 of 34025 files (93%)...........

0512-003 mksysb may not have been able to archive some files.

The messages displayed on the Standard Error contained additional

information.

这是正常现象，备份成功。

3.5.系统恢复

当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统，在与客户进行蹉商后，可将最近一次的系统备份带倒回机器内以全面恢复系统到最近一次做备份时的系统环境，然后可将当日的数据备份再倒回系统内。至此，系统可恢复正常运行。此后，客户应当与IBM工程师再进行整个事件的全面分析与回顾，以期找到故障发生的原因，并采取相应措施以杜绝类似事件再次发生。

3.6.DUMP

当系统运行出现软件故障导致系统down机时，机器的液晶显示器会出现 888 102 xxx 0c0 (xxx可能为700或其它)，AIX常会将当时系统的运行情况记录下来，这就是DUMP。

当DUMP产生后，请将磁带放入磁带机，用命令 # snap -a -o /dev/rmt0将DUMP 文件拷贝到磁带设备/dev/rmt0 中。注明磁带机的block size, DUMP产生的日期和机器的型号及序列号。同时，请用# errpt -a >/tmp/err.log 将errorlog 记在/tmp/err.log中，并将 /tmp/err.log 和 /tmp/hacmp.* 拷贝到软盘或磁带上。将磁带和软盘交给IBM工程师。
相关阅读:
php设计模式-适配器
 遍历Map的4种方法
 遍历数组
 遍历List的方法
 复选框选中
 单选框选中
 正向代理和反向代理
 对于Dubbo的理解
 python远程控制Linux
python对中文的处理
原文地址：https://www.cnblogs.com/chengxuyonghu/p/13595269.html