我用nagios 來監控CISCO ASA5550 防火牆, 公司這種防火牆有很多,但是有一些在nagios中總是出現 mem,load unknown的狀態,請參看下錶。
網路的人說設備運行正常。
我用的是NRPE,啟動SNMP, SNMP 只允許Nagios主機進行狀態檢查。
我用2台Nagios,共監控1500 網路設備,共6000個server
通常是, 1個交換機主機,連接 load, mem, interface,power status, temperature.
網路都是內部的LAN,大家能給些參考意見嗎?
謝!
==================================
This email was from Monitoring platform.
We found the following device had some problem.
***** centreon Notification *****
Notification Type: PROBLEM
Service: s_firewall_cisco_ram
Host: dfw19fpa01
Host Alias:19.88_Tiexi_NCC1_WLAN-firewall_ASA5550
Service comment:
Address: 10.188.8.13
State: UNKNOWN
Date/Time: 01-02-2013 Additional Info : ERROR: Alarm signal (Nagios time-out) Please take necessary action to investigate and fix the problem.
Monitor room will keep tracking on the status.
===================================
《解決方案》
unknown 的時間有時長有時短,但都是20分鐘以內
《解決方案》
ERROR: Alarm signal (Nagios time-out)
檢測超時了。
可以跟蹤一下,看是負載問題,還是瞬時網路問題造成的。
To chenl:能再具體描述一下嗎?
負載問題,是指 Nagios在當時的負載還是被監控設備(防火牆的負載)?
這種狀況我一般就會手工用snmpget檢查一下網路設備是否能正常返回,跟著就知道如何解決問題了。
造成超時的原因,猜想,大概有:
1)交換機的負載過高,沒有及時返回數據;
2)中間網路丟包或者延時過高造成的;
3)nagios server本身的負載問題引起的;
4)如果頻繁出現timeout,可以嘗試調整nagios相關和plugins本身的timeout設置;
[火星人 ] nagios 反饋,交換機內存檢測 UNKNOWN已經有523次圍觀