Cluster Health Monitor(缩写CHM)是Oracle提供的工具,自己主动的资源来收集操作系统(CPU、内存、SWAP、过程、I/O与网络)用法。
CHM数据被收集每秒一次,11.2.0.3版本号是5秒收集。
这些系统资源数据对于诊断集群系统的节点重新启动、Hang、实例驱赶(Eviction)、性能问题等是很有帮助的。
还以使用CHM来及早发现一些系统负载高、内存异常等问题,从而避免产生更严重的问题。
CHM会自己主动安装在以下的软件:
11.2.0.2 及更高版本号的 Oracle GridInfrastructure for Linux (不包含Linux Itanium) 、Solaris (Sparc 64 和 x86-64)
11.2.0.3 及更高版本号 Oracle GridInfrastructure for AIX 、 Windows (不包含Windows Itanium)。
在集群中,能够通过以下的命令查看CHM相应的资源(ora.crf)的状态:
$ crsctl stat res ora.crf -init
CHM主要包含两个服务:
1). SystemMonitor Service(osysmond):这个服务在全部节点都会执行。osysmond会将每一个节点的资源使用情况发送给cluster logger service,后者将会把全部节点的信息都接收并保存到CHM的资料库。
2). Cluster Logger Service(ologgerd):在一个集群中的。ologgerd 会有一个主机点(master)。另一个备节点(standby)。当ologgerd在当前的节点遇到问题无法启动后,它会在备用节点启用。(这个和DRM的master是不同的概念)
CHM Repository:用于存放收集到数据。默认情况下。会存在于Grid Infrastructure home 下 ,须要1 GB 的磁盘空间,每一个节点大约每天会占用0.5GB的空间。 您能够使用OCLUMON来调整它的存放路径以及同意的空间大小(最多仅仅能保存3天的数据)。
关闭和开启CHM(最好用grid账号在2个节点上分别运行运行)
关闭:
ora11grac1</home/grid>$ crsctl stop res ora.crf –init
ora11grac2</home/grid>$ crsctl start res ora.crf –init
开启:
ora11grac1</home/grid>$crsctl startres ora.crf -init
ora11grac2</home/grid>$crsctl startres ora.crf -init
备注:
1.关闭服务后I/O缓缓下降
2.本次改动只适用于本次,重新启动DB或者crs服务本次改动失效
3.是否启用主要取决于生产环境的设备IO,測试机能够直接禁用
启用和禁用CHM:
#<GRID_HOME>/bin/crsctl modify resource ora.crf -attr"AUTO_START=never" –init
#<GRID_HOME>/bin/crsctl modify resource ora.crf -attr"AUTO_START=always" -init
参考文档:MOS文件: Cluster Health Monitor (CHM) FAQ(Doc ID 1328466.1)