1、NRPE简介及工作原理
NRPE是nagios的一个扩展,它被用于被监控的服务器上,向nagios监控平台提供该服务器的一些本地的情况。例如,cpu负载、内存使用、硬盘使用等等。NRPE可以称为nagios的for linux 客户端。
NRPE 由两个部分组成:工作在监控机一侧的check_nrpe 插件、工作在被监控机一侧的NRPE 守护进程。
Nagios 服务器执行check_nrpe 插件并告诉他检查哪个服务,check_nrpe 插件通过SSL 连接方式联系远程服务器上的NRPE 守护进程,NRPE 守护进程执行相应的插件完成指定的检查,并返回结果。
工作原理是:插件nrpe在被监控机上开启一个daemon,通过这个daemon来和监控主机建立一条ssl加密通道,通过这条通道来传送被监控机的本地信息,达到监控的目的。装在被监控机上的daemon就相当于一个nagios的传递员,命令行从nagios监控主机发出,然后daemon接受到信息,就会执行这条命令行,执行的方式,其实是和nagios主机是一样的,所以被监控机上也需要装一套nagios-plugins插件。例 如:nagios主机需要监控被监控机的硬盘信息,就会对被监控机发出一条命令说:“我要看你的硬盘信息。”被监控机nrpe的daemon接到这个命 令之后,就会运行一个插件,来检查被监控机本地硬盘的信息,然后插件把信息反馈到nrpe,nrpe通过ssl通道再把这些信息反馈到nagios主机。
如下图所示
2、NRPE安装
1、所需安装包nrpe、nagios-plugins,这两个包都可以从www.nagios.org上得到,本例为nrpe-2.13.tar.gz
2、安装openssl、libcurl4-openssl-dev、xinetd;
apt-get install openssl
apt-get install libcurl4 -openssl-dev
apt-get install xinetd
3、安装nrpe和nagios-plugins插件
1) 安装nagios-plugins,在安装时首先在被监控机上新建nagios用户及组。
1 #groupadd nagios && useradd nagios -g nagios -M -r
2 安装nagios-plugins插件
# tar zxvf nagios-plugins-1.4.15.tar.gz
# cd ./nagios-plugins-1.4.15
# ./configure --prefix=/usr/local/nagios
# make && make install
3 更改nagios文件夹所属用户和组
# chown -R nagios:nagios /usr/local/nagios/
# chown -R nagios:nagios /usr/local/nagios/libexec/
2) 安装nrpe插件
1 在被监控机上安装nrpe插件
# tar zxvf nrpe-2.13.tar.gz
# cd ./nrpe-2.13
# ./configure --prefix=/usr/local/nagios/ --with-nrpe-user=nagios --with-nrpe-group=nagios --with-nagios-user=nagios --with-nagios-group=nagios --with-ssl=/usr/bin/openssl --with-ssl-lib=/usr/lib/i386-linux-gnu/ //不指定库的路径有时会找不在到库而提示错误:Cannot find ssl libraries
# make all
# make install-plugin //安装check_nrpe插件,在被监控机上安装这个插仅仅是为了测试,而这个插件是nagios监控主机需要安装的,这个插件就是向nrpe的daemon发命令的工具。
# make install-daemon //安装daemon到被测试机,等待接受命令。
# make install-daemon-config //安装配置文件,所有的daemon所接受到得命令都必须通过这个配置文件才能和插件建立联系。
2 检查安装是否成功
安装好了,可以到/usr/local/nagios/下面检查一下,应该生成了4个目录:bin、etc、libexec、share。
3 在监控机即nagios服务器上安装nrpe插件
# tar xzf nrpe-2.13.tar.gz
# cd nrpe-2.13
# ./configure
# make all
# make install-plugin
如果安装成功,就可以在/.../nagios/libexec 目录中找到 "check_nrpe"这个插件。
之后需要定义一个可以在监控平台使用的命令,这个定义一般会在/.../nagios/etc/commands.cfg中,其内容如下:
define command{
command_name check_nrpe
command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
}
3) 修改配置文件
修改配置文件,目的是让NRPE可以以守护进程的形式监听5666端口,为特定地址的nagios平台提供服务。在官方的NRPE文档中,详细说明了如何将 NRPE嵌入xinetd服务中,这里不做介绍。有些情况,我们的服务器上没有xinetd或者inetd这样的服务,那如何办呢?我在这里介绍一 种更加通用的方法。
首先,需要修改/usr/local/nagios/etc/nrpe.cfg。找到“allowed_hosts=127.0.0.1”将其改为:allowed_hosts=127.0.0.1,$Nagios监控服务器的IP地址或域名
这个配置的作用是声明合法的nrpe服务对象,没有在这里声明的地址是无法从本机的NRPE获得服务的。“$Nagios监控服务器的IP地址或域名”可以是ip 地址,也可以是域名。在我环境中,nagios监控平台没有一个固定的公网ip,所以其他在公网上的服务器如果安装了NRPE的话,就只能通过动态域名来 辨别监控平台的地址。
4) 启动NRPE守护进程:(可以将此命令加入/etc/rc.local,以便开机自动启动)
# /usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d
如果已经启动了服务,又修改了nrpe.cfg,那么必须停止nrpe这个服务重新nrpe.cfg -d才能生效
停止的办法a、cat /var/run/nrpe.pid //查看nrpe的进程id
b、kill <id> //结束nrpe的进程
此命令生成的日志会在系统的日志(/var/log/message)中。如果没有出错,就基本搞定了。
5) 测试是否安装成功
在被监控机上:/usr/local/nagios/libexec/check_nrpe -H 127.0.0.1
在监控机即nagios服务器上:/usr/local/nagios/libexec/check_nrpe -H $目标主机地址
正常的返回值为被监控服务器上安装的NRPE的版本信息:
[root@Linux227 ~]# /usr/local/nagios/libexec/check_nrpe -H 127.0.0.1
NRPE v2.12
如果看到这些,恭喜你,你的NRPE安装成功了。
3、NRPE的应用
通过NRPE,可以监控到哪些信息呢? 只要在被监控服务器上有的插件,都可以使用。即/usr/local/nagios/libexec中的所有插件。也就是说,你想监控什么,只要有对应的插件,就可以实现。需要监控什么信息,我们只需要修改被监控机下的nrpe.cfg文件即可,插件信息如下图
1、监控远程Linux服务器上CPU负载
1) 在被监控机上的nrpe.conf添加如下命令
command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20
2) 在监控机上通过nrpe调用该命令
在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的CPU负载,如下:
define service{
host_name Linux227
use generic-service
service_description cpu_load
check_command check_nrpe!check_load
register 1
}
注:此服务中的check_load就是在被监控机的nrpe.conf中定义的check_load命令。
2、检查根分区的空间
1) 在被监控机上的nrpe.conf添加如下命令
command[check_root_partition]=/usr/local/nagios/libexec/check_disk -w 30% -c 20% -p /
2) 在监控机上通过nrpe调用该命令
在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的根分区空间情况,如下:
define service{
host_name Linux227
use generic-service,srv-pnp
service_description Root Partition
check_command check_nrpe!check_root_partition
register 1
}
3、检查系统内存情况
1) 下载内存监控脚本
https://github.com/justintime/nagios-plugins/zipball/master
2) 在被监控机上的nrpe.conf添加如下命令
command[check_memory]=/usr/local/nagios/libexec/check_memory.pl -u -w 90 -c 95
3) 在监控机上通过nrpe调用该命令
在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的根分区空间情况,如下:
define service{
host_name Linux227
use generic-service,srv-pnp
service_description check memory
check_command check_nrpe!check_memory
register 1
}
4、检查系统CPU情况
1) 下载CPU监控脚本
2) 在被监控机上的nrpe.conf添加如下命令
command[check_cpu]=/usr/local/nagios/libexec/check_cpu.sh
3) 在监控机上通过nrpe调用该命令
在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的根分区空间情况,如下:
define service{
host_name Linux227
use generic-service,srv-pnp
service_description check cpu
check_command check_nrpe!check_cpu
register 1
}
5、检查系统运行时间
1) 下载监控脚本,并重命名为check_uptime.sh
2) 在被监控机上的nrpe.conf添加如下命令
command[check_uptime]=/usr/local/nagios/libexec/check_uptime.sh -c 20 -w 60
3) 在监控机上通过nrpe调用该命令
在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的根分区空间情况,如下:
define service{
host_name Linux227
use generic-service,srv-pnp
service_description check uptime
check_command check_nrpe!check_uptime
register 1
}
注:监控系统运行时间也可以借助系统命令uptime
# cp /usr/bin/uptime /usr/local/nagios/libexec/check_uptime
# chown nagios.nagios /usr/local/nagios/libexec/check_uptime
# chmod +x /usr/local/nagios/libexec/check_uptime
要监控其它的内容,可按两样的方法设置,介绍一个下载插件的好网站
https://www.monitoringexchange.org