歡迎您光臨本站 註冊首頁

關於運維監控系統,想聽聽各位高見。

←手機掃碼閱讀     火星人 @ 2014-03-03 , reply:0


個人覺得理想狀態的監控系統,可以監測主機/網路/應用/資料庫/業務系統的數據變化,並有多極報警功能,同時可以多角度展示數據
系統能夠在監測對象發生問題后,自動控制和修復遠程系統(有限度的)
系統還可以提供數據與BI或工作流系統交互

不知道大家如何認為,或者各位心目中的完美監控系統是怎樣的?請不吝賜教。

首先監控系統最應該關注故障處理和數據展現,先說說數據展現,看過太多的監控軟體,從2008年奧運會用的新加坡網利,到國內的游龍等,大家都在追求好的監控數據的展現方式,這裡討論的展現方式不是說多麼好看的報表,那些還上不了檯面。這裡討論的數據展現關注的是如何讓用戶怎麼使用這些監控數據。大家可能看到過這樣的系統,一上來左邊就看到一堆IT資源的樹列表,點擊哪個就看哪個;或者好一點的是把這些IT資源在左邊樹裡面,按照設備類型分了一下類;其實一直以來運維監控領域就一直在關注數據展現這個問題,像什麼BSM等這些概念,那到底什麼才是好的數據展現方式呢?BSM指出了一個方向,那就是把IT資源和業務關聯在一起,方向是沒錯的,但到底如何做呢?我們看到國內很多軟體公司跟風BSM,但開發出來的東西確實不敢說好用。我們認為一個理想的BSM監控數據展現方式應該是這樣的,IT資源在監控系統內部是按照一個統一的方式來看待的,不管你是一台伺服器、還是一個伺服器上的CPU利用率;當我們想建立BSM視圖的時候,可以非常方便的把這些IT資源任意的拖動到我們的視圖裡來,如下圖所示:

     現在再來說說故障處理,一個好的故障處理方式應該是靈活的,現在看到好多開源監控軟體提供的閥值設置都很簡單,就一個值,一個比較方式,一個故障級別;其實閥值設置這一塊應該比這個更靈活,如有這樣一個場景,有台伺服器如果在10分鐘內,有兩次ping在150ms-200ms之間的,就應該向操作人員告警;這裡只是以閥值這個最常用的故障判斷方式為例來說明故障處理,下圖是我們的一個閥值設置截圖:

  

[火星人 ] 關於運維監控系統,想聽聽各位高見。已經有348次圍觀

http://coctec.com/docs/service/show-post-2478.html