zabbix agent检测分为主动(agent active)和被动(agent)两种形式,主动与被动的说法均是相对于agent来讨论的。简单说明一下主动与被动的区别如下:
主动:agent请求server获取主动的监控项列表,并主动将监控项内需要检测的数据提交给server/proxy
被动:server向agent请求获取监控项的数据,agent返回数据。
zabbix agent通信过程中的协议均基于json格式,格式如下:
1 2 | – “ZBXD\x01” ( 5 bytes ) – data length ( 8 bytes ) . 1 will be formatted as 01 / 00 / 00 / 00 / 00 / 00 / 00 / 00 ( eight bytes in HEX , 64 bit number ) |
备注:为了避免内存耗尽,server限制每个通信连接最多使用128MB内存。
server发起如下请求
1 | < item key > \ n |
Aegent返回如下响应数据
1 | < HEADER > < DATALEN > < DATA > [ \ 0 < ERROR > ] |
supported items通信过程
not supported items通信过程
如前面所说,zabbix首先向ServerActive配置的IP请求获取active items,获取并提交active tiems数据值server或者proxy。很多同学会提出疑问:zabbix多久获取一次active items?它会根据配置文件中的RefreshActiveChecks的频率进行,如果获取失败,那么将会在60秒之后重试
获取ACTIVE ITEMS列表
Agent请求
1 2 3 4 | < HEADER > < DATALEN > { “request” : “active checks” , “host” : “<hostname>” } |
Server响应列表
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 | < HEADER > < DATALEN > { “response” : “success” , “data” : [ { “key” : “log[/home/zabbix/logs/zabbix_agentd.log]” , “delay” : 30 , “lastlogsize” : 0 , “mtime” : 0 } , { “key” : “agent.version” , “delay” : 600 , “lastlogsize” : 0 , “mtime” : 0 } , { “key” : “vfs.fs.size[/nono]” , “delay” : 600 , “lastlogsize” : 0 , “mtime” : 0 } ] } |
备注:获取到的items列表中的所有item属性key, delay, lastlogsize ,mtime都必须存在,获取列表的通信过程如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | < HEADER > < DATALEN > { “request” : “agent data” , “data” : [ { “host” : “<hostname>” , “key” : “agent.version” , “value” : “2.4.0” , “clock” : 1400675595 , “ns” : 76808644 } , { “host” : “<hostname>” , “key” : “log[/home/zabbix/logs/zabbix_agentd.log]” , “lastlogsize” : 112 , “value” : ” 19845:20140621:141708.521 Starting Zabbix Agent [<hostname>]. Zabbix 2.4.0 (revision 50000).” , “clock” : 1400675595 , “ns” : 77053975 } , { “host” : “<hostname>” , “key” : “vfs.fs.size[/nono]” , “state” : 1 , “value” : “Cannot obtain filesystem information: [2] No such file or directory” , “clock” : 1400675595 , “ns” : 78154128 } ] , “clock” : 1400675595 , “ns” : 78211329 } |
Server响应数据
1 2 3 4 | { “response” : “success” , “info” : “processed: 3; failed: 0; total: 3; seconds spent: 0.003534” } |
备注:如果有些数据提交失败,比如host、item被删除或者禁用,agent不会尝试从新提交
主动检测提交数据过程如下:
文章转载来自:trustauth.cn
上一篇:linux使用flock文件锁解决脚本重复执行问题
下一篇:API – 浅谈分布式文件系统MogileFS(5)