目前最好用Linux集群監控軟體是什麼,哪位大俠有整理的ganglia軟體的安裝文檔

火星人 @ 2014-03-04 , reply:0


目前最好用Linux集群監控軟體是什麼,哪位大俠有整理的ganglia軟體的安裝文檔

目前集群監控有很多免費軟體來監視,在HPC高性能計算中用到大量的集群,用什麼免費軟體做監控最好呢。
順便問問,哪個大俠有ganglia軟體的安裝文檔呢,我照著官方文檔配完,確什麼都沒有顯示:em14:
《解決方案》

原帖由 cbhfxy 於 2006-1-8 22:03 發表
目前集群監控有很多免費軟體來監視,在HPC高性能計算中用到大量的集群,用什麼免費軟體做監控最好呢。
順便問問,哪個大俠有ganglia軟體的安裝文檔呢,我照著官方文檔配完,確什麼都沒有顯示:em14:


ganglia 你要裸安裝的話,主要是rrdtools和一大串關聯包的安裝(如果你從tar.gz安裝的話).

我第一次安裝的時候也花了很長的時間。我建議你仔細的看ganglia得文檔,有一點我可以給你確認,就是按照官方文檔和你下載的tar.gz的包中的README/INSTALL文件
你可以100%的裝出一個裸的ganglia. 這點我可以給你確認.

不能顯示的原因很多,我看還是你的rrdtools那部分有問題. 你要嚴格按照那一系列壓縮包的要求來做. (建議在redhat下作). 我在SLES上裸安裝ganglia,第一次安裝的時候,因為包之間的差異,苦透苦透,但是的確安裝出來正常工作了.

如果你是HPC系統,我建議你用ROCKS,(請注意我以前的發言).  ROCKS的ganglia 和集群的其他部分預設計的非常好,基本上是 out of box.

hpc 中ganglia 是number one的系統,另外也有用nagios+plugin,但是我覺得還是ganglia好.
《解決方案》

非常感謝nntp,再問問老大是否用過IBM的RDM遠程管理軟體嗎,該軟體是否能遠程分發OS,實現xcat的功能。
《解決方案》

配完了,上圖,cpu、memory信息都出來了,咋一張曲線圖都看不見呢。下面附配置文件,server和client在一台機器上
globals {                    
  setuid = yes              
  user = nobody              
  cleanup_threshold = 300 /*secs */
  deaf=true
}

/* If a cluster attribute is specified, then all gmond hosts are wrapped
inside
* of a <CLUSTER> tag.  If you do not specify a cluster tag, then all <HO
STS> will
* NOT be wrapped inside of a <CLUSTER> tag. */
cluster {
  name = "ibm"
}

/* Feel free to specify as many udp_send_channels as you like.  Gmond
   used to only support having a single channel */
udp_send_channel {
  mcast_join = 10.68.199.99
  port = 8649
}

/* You can specify as many udp_recv_channels as you like as well. */
udp_recv_channel {
  mcast_join = 10.68.199.99
  port = 8649
  bind = 10.68.199.99
}

還需要配置什麼地方嗎?
《解決方案》

原帖由 cbhfxy 於 2006-1-9 14:25 發表
非常感謝nntp,再問問老大是否用過IBM的RDM遠程管理軟體嗎,該軟體是否能遠程分發OS,實現xcat的功能。


我用的HP RDP, 性質和RDM一樣的,也是Altiris based. 不過IBM RDM出來才沒有多少時間,hp RDP從compaq的時代就存在了.

不過hpc 集群,我不喜歡用RDP之類的,不是技術原因,就是個人工作習慣。如果一個這個事情我直接用ROCKS 內置的pxe+dhcp+kickstart+inser-ether 搞得定定的,我就不願意在整個部署中再引入另外一種方案。

但是不管你是RDM還是RDP, 如果你用來做OS deploy都是非常方便的,但是有一點要注意,就是RDM或RDP會在分發好node OS之後,默認附帶安裝上support pack, 基本上是一些utilities, drivers, agents(snmp based)。 RDM/RDP/Altiris 都是針對企業環境的伺服器群的部署的,所以這些東西對企業應用是有很好的幫助的,特別是有一些技術人員的技術路線很野,安裝部署伺服器的時候完全憑自己的經驗來做,總是會埋下這樣或者那樣的問題,用RDM/RDP就可以一定程度上克服掉這些問題。

但是hpc 除了頭節點/存儲節點/登陸節點之外,計算節點上OS要儘可能的保持乾淨,避免所有不需要的service起來,還有不要啟動任何和計算沒有關係的agent之類的東西,port也是越少開越好。所以上面提到的那個默認安裝方式顯然是不符合這種要求的。雖然在管理和使用上RDM/RDP比大部分的大規模科學計算集群管理系統有分發管理上的優勢,但是就是這個原因,我不願意在hpc中用.

我看你還是try try ROCKS吧,這裡有朋友曾經寫了自己的觀點覺得ROCKS比較容易使用,但是適合初學者,並且只能一個管理node對一批compute node 等等,我對這樣的觀點表示理解,但是我是完全不認可的. 原因你仔細的看rocks的官方站點或者和他們聖地亞哥超級計算中心的人溝通一下就知道了.

如果你們現在的系統已近部署好了,節點也很多,不適宜幹掉重新來。我建議你研究一下RDM/RDP,修改默認安裝的rule set,不要把support pack安裝上,基本上只要update 磁碟控制器/raid controller driver, firmware, SYSROM, 還有 NIC firmware, NIC driver就好了,其他的什麼亂七八糟的東西在compute node上都不要安裝.

如果你是x86或em64t的機器,不要忘記把hypertheading關掉. amd64的機器不要忘記確認NuMA kernel起來了.

有空讀一下曙光的曹振南寫的hpc/linkpack 性能調優,寫的還是相當不錯的
《解決方案》

原帖由 cbhfxy 於 2006-1-9 14:56 發表
配完了,上圖,cpu、memory信息都出來了,咋一張曲線圖都看不見呢。下面附配置文件,server和client在一台機器上
globals {                    
  setuid = yes              
  user = nobody               ...


看你的ganglia 截圖好像是rrdtool工作不正常, 你確認你的rrdtool工作正常了么?
《解決方案》

我寫了一個ganglia的安裝文檔,如果需要可以問我要。

因為是公司安裝系統的時候用的,所以不方便發上來。
《解決方案》

回復 5樓 nntp 的帖子

bz用了那麼多的suse,怎麼拋棄了suse最精彩的東東autoyast啊,呵呵
《解決方案》

原帖由 ljhb 於 2006-1-11 13:32 發表
bz用了那麼多的suse,怎麼拋棄了suse最精彩的東東autoyast啊,呵呵


知道autoyast的問題所在么? :">
《解決方案》

回復 9樓 nntp 的帖子

呵呵,頭一次聽說



[火星人 via ] 目前最好用Linux集群監控軟體是什麼,哪位大俠有整理的ganglia軟體的安裝文檔已經有97次圍觀

http://www.coctec.com/docs/service/show-post-8818.html