zabbix触发器表达式详解
概述:触发器中的表达式使用很灵活,我们可以创建一个复杂的逻辑测试监控,触发器表达式形式如下:
{<server>:<key>.<function>(<parameter>)}<operator><constant>
{主机:key.函数(参数)}<表达式>常数,具体的例子,请接着往下走,很简单
Functions函数:触发器functions可以引用检索到的值,当前时间或者其他元素。触发器表达式支持的function完整列表请点击官网地址 supported functions
Function参数----大多数数值functions可以使用秒来作为参数。你可以使用前缀“#”来表示它有不同的含义
FUNCTION CALL | 描述 |
---|---|
sum(600) | 600秒内的总和 |
sum(#5) | 最新5个值的和 |
last函数使用不同的参数将会得到不同的值,#2表示倒数第二新的数据。例入从老到最新值为1,2,3,4,5,6,7,8,9,10,last(#2)得到的值为9,last(#9)得到的值为2。last函数必须包含参数。
AVG,count,last,min和max函数还支持额外的参数,以秒为单位的参数time_shift(时间偏移量)。例如avg(1h,1d),那么将会获取到昨天的1小时内的平均数据。
[warning]备注:触发器表达式需要使用history历史数据来计算,如果history不可用(time_shift时间偏移量参数无法使用),因此history记录一定要保留长久一点,至少要保留需要用的记录。[/warning]
触发器表达式可以使用单位符号来替代大数字,例如5m替代300,或者1d替代86400,1k替代1024字节等等。
操作符
优先级 | 操作 | 定义 |
---|---|---|
1 | / | 除 |
2 | * | 乘 |
3 | - | 减 |
4 | + | 加 |
5 | < | 小于. 用法如下: A<B ⇔ (A<=B-0.000001) |
6 | > | 大于. 用法如下: A>B ⇔ (A>=B+0.000001) |
7 | # | 不等于.用法如下: A#B ⇔ (A<=B-0.000001) | (A>=B+0.000001) |
8 | = | 等于. T用法如下: A=B ⇔ (A>B-0.000001) & (A<B+0.000001) |
9 | & | 逻辑与 |
10 | | | 逻辑或 |
触发器示例
示例---触发器名称:Processor load is too high on www.zabbix.com
{www.zabbix.com:system.cpu.load[all,avg1].last(0)}>5
触发器说明:
www.zabbix.com:host名称
system.cpu.load[all,avg1]:item值,一分内cpu平均负载值
last(0):最新值
>5:最新值大于5
如上所示,www.zabbix.com这个主机的监控项,最新的CPU负载值如果大于5,那么表达式会返回true,这样一来触发器状态就改变为“problem”了。
示例二---触发器名称:www.zabbix.com is overloaded
{www.zabbix.com:system.cpu.load[all,avg1].last(0)}>5|{www.zabbix.com:system.cpu.load[all,avg1].min(10m)}>2
当前cpu负载大于5或者最近10分内的cpu负载大于2,那么表达式将会返回true.
示例三---触发器名称:/etc/passwd has been changed,使用函数 diff():
{www.zabbix.com:vfs.file.cksum[/etc/passwd].diff(0)}>0
/etc /passwd最新的checksum与上一次获取到的checksum不同,表达式将会返回true. 我们可以使用同样的方法监控系统重要的配置文件,例如/etc/passwd,/etc/inetd.conf等等。这些zabbix一般都会自带,没带 的你自己加上吧。
示例四----触发器名称:Someone is downloading a large file from the Internet,使用函数 min:
{www.zabbix.com:net.if.in[eth0,bytes].min(5m)}>100K
当前主机网卡eth0最后5分钟内接收到的流量超过100KB那么触发器表达式将会返回true
示例五---触发器名称:Both nodes of clustered SMTP server are down
{smtp1.zabbix.com:net.tcp.service[smtp].last(0)}=0&{smtp2.zabbix.com:net.tcp.service[smtp].last(0)}=0
当smtp1.zabbix.com和smtp2.zabbix.com两台主机上的SMTP服务器都离线,表达式将会返回true.
示例六---触发器名称:Zabbix agent needs to be upgraded,使用函数str():
{zabbix.zabbix.com:agent.version.str("beta8")}=1
如果当前zabbix agent版本包含beta8(假设当前版本为1.0beta8),这个表达式会返回true.
示例七---触发器名称:Server is unreachable
{zabbix.zabbix.com:icmpping.count(30m,0)}>5
如上表达式表示最近30分钟zabbix.zabbix.com这个主机超过5次不可到达。
示例八---触发器名称:No heartbeats within last 3 minutes,使用函数 nodata():
{zabbix.zabbix.com:tick.nodata(3m)}=1
tick 为Zabbix trapper类型,首先我们要定义一个类型为Zabbix trapper,key为tick的item。我们使用zabbix_sender定期发送数据给tick,如果在3分钟内还未收到 zabbix_sender发送来的数据,那么表达式返回一个true,与此同时触发器的值变为“PROBLEM”。
示例九---触发器名称:CPU activity at night time,使用函数 time():
{zabbix:system.cpu.load[all,avg1].min(5m)}>2&{zabbix:system.cpu.load[all,avg1].time(0)}>000000&{zabbix:system.cpu.load[all,avg1].time(0)}<060000
只有在凌晨0点到6点整,最近5分钟内cpu负载大于2,表达式返回true,触发器的状态变更为“problem”
示例十---触发器名称:Check if client local time is in sync with Zabbix server time,使用函数 fuzzytime():
{MySQL_DB:system.localtime.fuzzytime(10)}=0
主机MySQL_DB当前服务器时间如果与zabbix server之间的时间相差10秒以上,表达式返回true,触发器状态改变为“problem”
示例十一---触发器名称:Comparing average load today with average load of the same time yesterday (使用 time_shift 时间偏移量参数).
{server:system.cpu.load.avg(1h)}/{server:system.cpu.load.avg(1h,1d)}>2
This expression will fire if the average load of the last hour tops the average load of the same hour yesterday more than two times.
Hysteresis(迟滞,滞后)
简单的说触发器状态转变为problem需要一个条件,从problem转变回来还需要一个条件才行。一般触发器只需要不满足触发器为problem条件即可恢复。明白了么?不明白就看例子吧。
有时候触发器需要使用不同的条件来表示不同的状态,举个官网很有趣的例子:机房温度正常稳定为15-20°,当温度超过20°,触发器值为problem,直到温度低于15°才会接触警报,异常会解除。别整这些没用的,我们看实例.
为了达到这个效果,我们需要使用如下触发器表达式:
示例1---触发器名称:Temperature in server room is too high
({TRIGGER.VALUE}=0&{server:temp.last(0)}>20)|
({TRIGGER.VALUE}=1&{server:temp.last(0)}<15)
如上有两个小括号,前面一个表示触发异常的条件,后面一个表达式表示解除异常的条件。
注意:宏变量 {TRIGGER.VALUE}将会返回当前触发器的值
示例2---触发器名称:Free disk space is too low
Problem: 最近5分钟剩余磁盘空间小于10GB。(异常)
Recovery: 最近10分钟磁盘空间大于40GB。(恢复)
简单说便是一旦剩余空间小于10G就触发异常,然后接下来剩余空间必须大于40G才能解除这个异常,就算你剩余空间达到了39G(不在报警条件里)那也是没用的,有意思不!
({TRIGGER.VALUE}=0&{server:vfs.fs.size[/,free].max(5m)}<10G) |
({TRIGGER.VALUE}=1&{server:vfs.fs.size[/,free].min(10m)}<40G)
结尾
这篇文章很有必要细细读,很重要。
zabbix触发器依赖关系详解
概述
zabbix触发器可以设置依赖性,例如我配置了两个触发器,一个触发器定义www.ttlsa.com这个HOST是否在运行中,另一个是www.ttlsa.com的网络是否通畅。假如网络出现故障,但是ttlsa服务器并未出现故障,我们依旧会收到这两个触发器给到的故障通知。
现在的问题很明显,HOST是正常的,肯定不希望收到他的故障信息,因为它正常工作。所以在配置HOST触发器时,我们需要增加依赖关系,依赖网络是否畅通这个触发器。一旦网络出现故障,将不会出发HOST故障的通知。单个触发器可以依赖于多个触发器。
触发器依赖要点
- 一台HOST的触发器可以依赖其他HOST的触发器,但是注意不要有死循环依赖。比如A依赖B,B依赖C,C又依赖A。一个圆圈,没完没了。如下是A依赖B,B又依赖A,根本依赖不了,有如下报错。
- 一个模板的触发器可以依赖另外一个模板的触发器,例如模板A触发器依赖模板B触发器。一个HOST要链接A模板,那么它同时要链接A模板(因为模 板A中的触发器依赖了模板B中的触发器),但是HOST可以单独链接模板B(B是被依赖)。在一个host单独链接template A,结果出现如下错误,所以别忘记了一起把template B也链接到HOST中。
- 模板中的触发器可以依赖HOST中的触发器。如果某个HOST链接这类模板,那么HOST创建的相应的触发器也同样会依赖那个HOST的触发器。 举个官方的例子,某个模板中的一些触发器依赖了route/主机的触发器,凡事链接(理解为套用)了这个模板的机器都会依赖这些router/主机。说了 那么多,其实就是继承了。
- HOST中的触发器不能依赖模板中的触发器。
配置
编辑触发器,选择选项卡“dependencies”,点击Add,选择你需要依赖的触发器,如下图:
然后点击保存,可以看到触发器多了一个depend on
多个依赖实例
借用官方文档的示例,Host前面有个Router2,Router2前面有Router1,如下:
Zabbix - Router1 - Router2 - Host
如果Router1挂了,很明显Router2和Host连不上,我们不希望收到关于连不上Router2和HOST的通知,因此,我们定义了如下依赖关系:
'Host is down' trigger depends on 'Router2 is down'
trigger'Router2 is down' trigger depends on 'Router1 is down' trigger
在触发器将Host的状态改变为'Host is down'之前,它会检查host相关的依赖,这时候如果发现它依赖的触发器只要出现一个problem状态,那么当前触发器状态不会变化,这样一来action不会执行,报警通知sms/email自然也不会发送了。
zabbix会递归执行检测,如果router1或者router2有一个出现连不上,那么Host的触发器不会有任何的改变。
zabbix创建触发器trigger
1. 创建触发器
了解了什么触发器,接下来看下zabbix触发器怎么创建和配置,方法很简单,请大家往下读,有什么问题请留言。
创建触发器步骤:
- 点击Configuration(配置) → Hosts(主机)
- 点击hosts(主机)相关行的trigger
- 点击右上角的创建触发器(create trigger),你也可以修改列表中的触发器
在表单中输入相应的信息
2. 配置触发器
如下为触发器
参数介绍
参数 | 描述 |
---|---|
Name | 触发器名称. 名称可以包含宏变量: {HOST.HOST}, {HOST.NAME}, {HOST.CONN}, {HOST.DNS}, {HOST.IP}, {ITEM.VALUE}, {ITEM.LASTVALUE} and {$MACRO} .$1, $2…$9 可以被用来关联表达式的常量 示例: name:Processor load above $1 on {HOST.NAME}” 表达式:system.cpu.load[percpu,avg1].last(0)}>5 会显示为:Processor load above 5 on ttlsa云服务器 |
Expression | 计算触发器状态的逻辑表达式,这边设置为上一次值等于0 |
Multiple PROBLEM events generation | 通过设置该选项,你可以在触发器产生problem的时候触发一个事件 |
Description | 触发器的描述,一般name写的不清楚,这边可以具体描述这个触发器的作用,例如nginx当前离线,请处理等等。Zabbix 2.2版本开始,支持触发器名称。 |
URL | 在Monitoring → Triggers中,可以看到URL并且可以点击,一般情况下他需要配合触发器ID来使用,在url中包含触发器ID(宏变量 {TRIGGER.ID}),这样可以直接点击到具体触发器中。 |
Severity | 设置严重性级别,上图我设置为“灾难”,你可以相应的设置警告、严重等状态的触发器 |
Enabled | 当前触发器是否启用 |
3. 触发器依赖
上图大家可以看到有个Dependencies,他是做什么的? 翻译为依赖,具体的用法我们后面章节来讲
zabbix触发器严重性定义Trigger severity
severity通常用来定义当前item的一个状态的严重性。我们可以根据不同的严重性来定义不同的事件,例如报警,zabbix自带如下严重性定义。
Trigger severity表格
SEVERITY | DEFINITION | 颜色 |
---|---|---|
Not classified | 未知. | 灰色 |
Information | 一般信息. | 浅绿 |
Warning | 警告 | 黄色 |
Average | 一般问题. | 橙色 |
High | 严重问题. | 红色 |
Disaster | 灾难,会带来损失的那种. | 深红 |
severities 用途
- 可视化显示,不同级别显示不同颜色,例如一般严重性为绿色
- 声音报警,不同的级别不同声音.
- 使用用户自定义媒体报警,例如严重问题发短信,其他问题发送邮件。
- 根据严重性来定义是否报警
可以自定义触发器严重性以及颜色,请参考:customise trigger severity names and colours.
zabbix自定义触发器严重性
触发器严重性介绍
触发器严重性命名以及颜色定义都可以在zabbix web后台定义,点击Administration(管理) → General (常规)→ Trigger severities(触发器严重性)。这边定义好的颜色在每个不同主题/风格里面都是一样的。
所有系统默认的触发器名字在各国的语言包中都有翻译,但是你自定义的其他语言包不会给你翻译,因为在语言包里面没有这一个项目。那么怎么保证各国语言包里面都能相应的翻译自定义的严重性呢?
我们知道zabbix默认定义了6个触发器严重性,分别为:Not classified、Information、Warning、Average、High、Disaster,有些人觉得High不好理解或者觉得描述不满意,想改成Important,请看如下操作:
设置触发器名称
点击Administration(管理) → General (常规)→ Trigger severities(触发器严重性),将High改为important,当然这里你也可以自定义你的颜色,我们这边就不再敖述了,修改完之后点击保存。
添加内容到frontend.po
# /data/site/monitor.ttlsa.com/locale/en_US/LC_MESSAGES/frontend.po
msgid "Important"
msgstr "very Import"
[warning]备注:/data/site/monitor.ttlsa.com/是您zabbix站点根目录[/warning]
创建.mo文件
需要执行locale目录下的make_mo.sh文件,如果出现./make_mo.sh: line 4: msgfmt: command not found,那么请你先安装msgfmt
# yum install gettext
然后执行make_mo.sh
# ./make_mo.sh
效果
随意选择一个Host的触发器列表,看左边信息,请看如下图<
在 自定义触发器名称之前应该显示High的,这边被我们修改成了Very Import。zabbix是一个多语言监控系统,如果你想切换到中文环 境,那么你需要修改zh_CN下的frontend.po,然后make_mo.sh创建frontend.mo。否则将只会显示Important,如 下:
这边直接显示触发器的MSGID,因为你没翻译。
最后
6个触发器级别,名称随你修改,但是大多数情况下我们都不需要修改,默认的挺好的,不是吗?非要自定义,我不拦你。
zabbix获取上一个值prev zabbix触发器函数
zabbix触发器方法prev用于获取item前一个返回值,与方法last(#2)是同样的意思
zabbix触发器方法prev - web界面
如下是web界面提供的功能:
Previous value is > N
Previous value is < N
Previous value is = N
Previous value is NOT N
zabbix触发器方法prev - 实例
CPU前一个负载值大于0.7
{dd-pre-01:system.cpu.load[percpu,avg1].prev()}>0.7
或者使用last获得同样的效果
{dd-pre-01:system.cpu.load[percpu,avg1].last(#2)}>0.
zabbix触发器方法prev - 支持类型
它支持类型包括:float, int, str, text, log
zabbix获取当前UNIX时间戳now zabbix触发器函数
获取当前UNIX时间戳,UNIX时间戳是什么?当前距离1970年1月1日00:00:00一共多少秒。使用zabbix触发器函数:now(),举一个简单的例子。
2020年1月1日0时0分0秒(UNIX时间戳:1577808000)到2020年2月1日0时0分0秒(UNIX时间戳:1580486400)之间,cpu1分钟负载大于1触发告警。例子意义不大,希望大家举一反三。
{ttlsa-server:system.cpu.load[all,avg1].last()}>1 and
{ttlsa-server:system.cpu.load[all,avg1].now()}>1577808000 and
{ttlsa-server:system.cpu.load[all,avg1].now()}<1580486400
zabbix取平均值avg zabbix触发器函数
zabbix触发器方法avg与上一节的abschange多了时间概念。上一节仅仅是取前后两个值对比,avg有如下取值方式:
- 最后N个值
- 最近XX时间,例如最近1h
- 以上1和2还要结合time_thift时间偏移参数,例如1h
zabbix触发器方法avg - web界面
如下是web界面提供的功能:
Average value of a period is < N
Average value of a period is > N
Average value of a period is = N
Average value of a period is NOT N
zabbix触发器方法avg - 实例
CPU负载最近一小时平均值等于1
{dd-pre-01:system.cpu.load[percpu,avg1].avg(1h)}=1
CPU负载昨天当前时间的上一小时平均值等于1,1d表示时间往前推移1天,你可以写1h,1m,10d,现在明白了time_thrift的用法了吧?
{dd-pre-01:system.cpu.load[percpu,avg1].avg(1h,1d)}=1
CPU负载最近10次的平均值等于1
{dd-pre-01:system.cpu.load[percpu,avg1].avg(#10)}=1
昨天同一时间CPU负载最近10次的平均值等于1
{dd-pre-01:system.cpu.load[percpu,avg1].avg(#10,1d)}=1
zabbix触发器方法avg - 支持类型
它支持类型包括:float, int,能平均的除了数字还有谁?
获取最大值max zabbix触发器函数
zabbix触发器函数max - 作用
有如下作用:
- 获取一个时间周期内最大值
- 获取几个返回值中的最大值
- 以上方法,时间往前推移1分钟,1小时,1天等等
zabbix触发器函数max - 对应web
文字如下
Maximum value for period T is > N
Maximum value for period T is < N
Maximum value for period T is = N
Maximum value for period T is NOT N
zabbix触发器函数max - 例子
语法:max (sec|#num,<time_shift>)
一个小时内cpu负载最大值超过10
{dd-pre-01:system.cpu.load[percpu,avg1].max(1h)}>10
cpu负载最近10个返回值,最大值超过10
{dd-pre-01:system.cpu.load[percpu,avg1].max(#10)}>10
最小值min zabbix触发器函数
功能和上一节将的max整好相反,我们将结合max、min来一个更有意思的实例。
zabbix触发器函数min - 作用
,有如下作用:
- 获取一个时间周期内最小值
- 获取几个返回值中的最小值
- 以上方法,时间往前推移1分钟,1小时,1天等等
zabbix触发器函数min - 对应web
文字如下
Minimum value for period T is > N
Minimum valuefor period T is < N
Minimum value for period T is = N
Minimum value for period T is NOT N
zabbix触发器函数min - 例子
语法:min(sec|#num,<time_shift>)
一个小时内cpu负载最小值小于0.2
{dd-pre-01:system.cpu.load[percpu,avg1].min(1h)}<0.2
cpu负载最近10个返回值,最小值小于0.2
{dd-pre-01:system.cpu.load[percpu,avg1].min(#10)}<0.2
zabbix触发器函数min/max - 实例
触发器名称:Free disk space is too low
Problem: 最近5分钟剩余磁盘空间小于10GB。(异常)
Recovery: 最近10分钟磁盘空间大于40GB。(恢复)
讲解:简单说便是一旦剩余空间小于10G就触发异常,然后接下来剩余空间必须大于40G才能解除这个异常,就算你剩余空间达到了39G(不在报警条件里)那也是没用的.
({TRIGGER.VALUE}=0 and {server:vfs.fs.size[/,free].max(5m)}<10G) or
({TRIGGER.VALUE}=1 and {server:vfs.fs.size[/,free].min(10m)}<40G)
abschange前后差值 zabbix触发器函数
监控实战中,每个同学对触发器告警条件要求各不相同,so,zabbix提供了几十个方法提供使用。部分人对以下功能也不甚了解。接下来,我会一一讲解下图function与zabbix提供function的对应关系,以及他们的功能。
zabbix取前后差值(绝对值)- abschange
如下是web界面提供的功能:
Absolute difference between last and previous value is = N
Absolute difference between last and previous value is > N
Absolute difference between last and previous value is < N
Absolute difference between last and previous value is NOT N
通过实例来一一了解它,例子也许很滑稽很不合理,但是大家可以举一反三,它只是一个例子
如果(每核)CPU 1分钟负载浮动1(突然增加1,1分钟后又降低1)
{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}=1
如果(每核)CPU 1分钟负载浮动大于1
{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}>1
如果(每核)CPU 1分钟负载浮动小于1
{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}<1
如果(每核)CPU 1分钟负载浮动不等于1
{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}<>1
abschange支持类型
它支持类型包括:float, int, str, text, log,它不仅仅支持数值,还支持字符串。如果取值为字符串,那么字符串相同值为0,不同则为1
如下为主机名发生变更的触发器表达式
{ttlsa-web-01:system.hostname.abschange()}=1