• Nagios监控Linux主机(NRPE安装与应用)


     1、NRPE简介及工作原理

    NRPE是nagios的一个扩展,它被用于被监控的服务器上,向nagios监控平台提供该服务器的一些本地的情况。例如,cpu负载、内存使用、硬盘使用等等。NRPE可以称为nagios的for linux 客户端。

    NRPE 由两个部分组成:工作在监控机一侧的check_nrpe 插件、工作在被监控机一侧的NRPE 守护进程。

    Nagios 服务器执行check_nrpe 插件并告诉他检查哪个服务,check_nrpe 插件通过SSL 连接方式联系远程服务器上的NRPE 守护进程,NRPE 守护进程执行相应的插件完成指定的检查,并返回结果。

    工作原理是:插件nrpe在被监控机上开启一个daemon,通过这个daemon来和监控主机建立一条ssl加密通道,通过这条通道来传送被监控机的本地信息,达到监控的目的。装在被监控机上的daemon就相当于一个nagios的传递员,命令行从nagios监控主机发出,然后daemon接受到信息,就会执行这条命令行,执行的方式,其实是和nagios主机是一样的,所以被监控机上也需要装一套nagios-plugins插件。例 如:nagios主机需要监控被监控机的硬盘信息,就会对被监控机发出一条命令说:“我要看你的硬盘信息。”被监控机nrpe的daemon接到这个命 令之后,就会运行一个插件,来检查被监控机本地硬盘的信息,然后插件把信息反馈到nrpe,nrpe通过ssl通道再把这些信息反馈到nagios主机。

    如下图所示

     

     

    2、NRPE安装

    1、所需安装包nrpe、nagios-plugins,这两个包都可以从www.nagios.org上得到,本例为nrpe-2.13.tar.gz

    2、安装openssl、libcurl4-openssl-dev、xinetd;

    apt-get install openssl

    apt-get install libcurl4 -openssl-dev

    apt-get install xinetd

    3、安装nrpe和nagios-plugins插件

    1) 安装nagios-plugins,在安装时首先在被监控机上新建nagios用户及组。

    1 #groupadd nagios && useradd nagios -g nagios -M -r

    2 安装nagios-plugins插件

        # tar zxvf nagios-plugins-1.4.15.tar.gz

        # cd ./nagios-plugins-1.4.15

        # ./configure --prefix=/usr/local/nagios

        # make && make install

    3 更改nagios文件夹所属用户和组
            # chown  -R nagios:nagios  /usr/local/nagios/

        # chown -R nagios:nagios /usr/local/nagios/libexec/

    2) 安装nrpe插件

    1 在被监控机上安装nrpe插件

            # tar zxvf nrpe-2.13.tar.gz

            # cd ./nrpe-2.13

            # ./configure --prefix=/usr/local/nagios/ --with-nrpe-user=nagios --with-nrpe-group=nagios --with-nagios-user=nagios --with-nagios-group=nagios --with-ssl=/usr/bin/openssl --with-ssl-lib=/usr/lib/i386-linux-gnu/             //不指定库的路径有时会找不在到库而提示错误:Cannot find ssl libraries

            # make all

            # make install-plugin   //安装check_nrpe插件,在被监控机上安装这个插仅仅是为了测试,而这个插件是nagios监控主机需要安装的,这个插件就是向nrpe的daemon发命令的工具。

            # make install-daemon   //安装daemon到被测试机,等待接受命令。

            # make install-daemon-config  //安装配置文件,所有的daemon所接受到得命令都必须通过这个配置文件才能和插件建立联系。

    2 检查安装是否成功

    安装好了,可以到/usr/local/nagios/下面检查一下,应该生成了4个目录:bin、etc、libexec、share。

    3 在监控机即nagios服务器上安装nrpe插件

        # tar xzf nrpe-2.13.tar.gz

        # cd nrpe-2.13

        # ./configure

        # make all

    # make install-plugin

    如果安装成功,就可以在/.../nagios/libexec 目录中找到 "check_nrpe"这个插件。
    之后需要定义一个可以在监控平台使用的命令,这个定义一般会在/.../nagios/etc/commands.cfg中,其内容如下:

    define command{

    command_name check_nrpe

    command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$

     }

    3) 修改配置文件

    修改配置文件,目的是让NRPE可以以守护进程的形式监听5666端口,为特定地址的nagios平台提供服务。在官方的NRPE文档中,详细说明了如何将 NRPE嵌入xinetd服务中,这里不做介绍。有些情况,我们的服务器上没有xinetd或者inetd这样的服务,那如何办呢?我在这里介绍一 种更加通用的方法。

    首先,需要修改/usr/local/nagios/etc/nrpe.cfg。找到“allowed_hosts=127.0.0.1”将其改为:allowed_hosts=127.0.0.1,$Nagios监控服务器的IP地址或域名

    这个配置的作用是声明合法的nrpe服务对象,没有在这里声明的地址是无法从本机的NRPE获得服务的。“$Nagios监控服务器的IP地址或域名”可以是ip 地址,也可以是域名。在我环境中,nagios监控平台没有一个固定的公网ip,所以其他在公网上的服务器如果安装了NRPE的话,就只能通过动态域名来 辨别监控平台的地址。

    4) 启动NRPE守护进程:(可以将此命令加入/etc/rc.local,以便开机自动启动)

    # /usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d

    如果已经启动了服务,又修改了nrpe.cfg,那么必须停止nrpe这个服务重新nrpe.cfg -d才能生效

    停止的办法a、cat /var/run/nrpe.pid   //查看nrpe的进程id

         b、kill <id>   //结束nrpe的进程

    此命令生成的日志会在系统的日志(/var/log/message)中。如果没有出错,就基本搞定了。

    5) 测试是否安装成功

    在被监控机上:/usr/local/nagios/libexec/check_nrpe -H 127.0.0.1

    在监控机即nagios服务器上:/usr/local/nagios/libexec/check_nrpe -H $目标主机地址

    正常的返回值为被监控服务器上安装的NRPE的版本信息:

    [root@Linux227 ~]# /usr/local/nagios/libexec/check_nrpe -H 127.0.0.1

    NRPE v2.12

    如果看到这些,恭喜你,你的NRPE安装成功了。

     

    3、NRPE的应用

    通过NRPE,可以监控到哪些信息呢? 只要在被监控服务器上有的插件,都可以使用。即/usr/local/nagios/libexec中的所有插件。也就是说,你想监控什么,只要有对应的插件,就可以实现。需要监控什么信息,我们只需要修改被监控机下的nrpe.cfg文件即可,插件信息如下图

    1、监控远程Linux服务器上CPU负载

    1) 在被监控机上的nrpe.conf添加如下命令

    command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20

    2) 在监控机上通过nrpe调用该命令

    在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的CPU负载,如下:

    define service{

           host_name                        Linux227

           use                               generic-service

           service_description                cpu_load

           check_command                   check_nrpe!check_load

           register                            1

    }

    注:此服务中的check_load就是在被监控机的nrpe.conf中定义的check_load命令。

    2、检查根分区的空间

    1) 在被监控机上的nrpe.conf添加如下命令

    command[check_root_partition]=/usr/local/nagios/libexec/check_disk  -w 30% -c 20% -p /

    2) 在监控机上通过nrpe调用该命令

    在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的根分区空间情况,如下:

    define service{

           host_name                        Linux227

           use                               generic-service,srv-pnp

           service_description                Root Partition

           check_command                   check_nrpe!check_root_partition

           register                            1

    }

    3、检查系统内存情况

    1) 下载内存监控脚本

    https://github.com/justintime/nagios-plugins/zipball/master

    2) 在被监控机上的nrpe.conf添加如下命令

    command[check_memory]=/usr/local/nagios/libexec/check_memory.pl  -u -w 90 -c 95

    3) 在监控机上通过nrpe调用该命令

    在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的根分区空间情况,如下:

    define service{

           host_name                        Linux227

           use                               generic-service,srv-pnp

           service_description                check memory

           check_command                   check_nrpe!check_memory

           register                            1

    }

    4、检查系统CPU情况

    1) 下载CPU监控脚本

    https://www.monitoringexchange.org/attachment/download/Check-Plugins/Operating-Systems/check_cpu-sh/check_cpu.sh

    2) 在被监控机上的nrpe.conf添加如下命令

    command[check_cpu]=/usr/local/nagios/libexec/check_cpu.sh

    3) 在监控机上通过nrpe调用该命令

    在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的根分区空间情况,如下:

    define service{

           host_name                        Linux227

           use                               generic-service,srv-pnp

           service_description                check cpu

           check_command                   check_nrpe!check_cpu

           register                            1

    }

     

    5、检查系统运行时间

    1) 下载监控脚本,并重命名为check_uptime.sh

    https://www.monitoringexchange.org/attachment/download/Check-Plugins/Operating-Systems/check_uptime2/10-01-22_09-49-27_check_uptime

    2) 在被监控机上的nrpe.conf添加如下命令

    command[check_uptime]=/usr/local/nagios/libexec/check_uptime.sh -c 20 -w 60

    3) 在监控机上通过nrpe调用该命令

    在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的根分区空间情况,如下:

    define service{

           host_name                        Linux227

           use                               generic-service,srv-pnp

           service_description                check uptime

           check_command                   check_nrpe!check_uptime

           register                            1

    }

    注:监控系统运行时间也可以借助系统命令uptime

    # cp /usr/bin/uptime /usr/local/nagios/libexec/check_uptime

    # chown nagios.nagios /usr/local/nagios/libexec/check_uptime

    # chmod +x /usr/local/nagios/libexec/check_uptime

    要监控其它的内容,可按两样的方法设置,介绍一个下载插件的好网站

    https://www.monitoringexchange.org

     

     

  • 相关阅读:
    敏捷个人2013.06月份户外活动报道:奥森健步读书分享会
    敏友的【敏捷个人】有感(16): 成为一个敏捷的人
    #敏捷个人# 每日认识101(14):成为一个敏捷个人
    4周的敏捷生活练习,你来吗?
    OKGo vs RxHttpUtils ...
    Android开发之EditText多行文本输入
    android开发中json与java对象相互转换
    android 调试崩溃Unable to instantiate application的解决方法
    Android.mk 使用说明
    几种知名开源富文本编辑器记录和对比(仅供参考)
  • 原文地址:https://www.cnblogs.com/wowchky/p/3111870.html
Copyright © 2020-2023  润新知