AS4 U5 cluster + ORACLE ,Fence設備無法發現

火星人 @ 2014-03-04 , reply:0
←手機掃碼閱讀

AS4 U5 cluster + ORACLE ,Fence設備無法發現

最近跳槽去了乙方,某做廣電的系統集成公司
接手了一個以前工程師搞不定的clauter難題:即在redhat as4 U5上,使用cluster+GFS,做Oracle10g的HA,存儲使用的是HP的DAS(直連存儲),伺服器用的是2台HP DL380 G2
之前沒搞過DAS直連存儲,也沒調試過cluster,對oracle也不熟悉,只裝過單機版的oracle……在北京準備了一個多星期(10天左右),出差去客戶(南方某省)實施了3天,基本搞定,遺留了2個問題:


問題之一:上面那個帖子,關於自動mount GFS分區的問題

問題之二:

本次項目中使用的HP伺服器,內置了ilo的fence設備.我在重新啟動伺服器時按F8進入BIOS,設置了ilo卡的IP地址(192.168.0.1與2)、用戶名與密碼(redhat/123456789),並將ILO卡連接至交換機,且將心跳網卡的IP地址與之同段相通,修改hosts文件后,此時,在Cluster Management里將有關fence項加入,試圖使用ilo卡來接替網卡心跳線工作,cluster啟動失敗;使用如下命令檢測ilo卡,也返回超時失敗消息:
#fence_ilo -a 192.168.0.1 -l redhat -p 123456789 -o status


原因暫時不明,fence設備暫時未使用.

有經驗的朋友請伸出援助之手,經驗互補,相互幫忙,非常感謝

[ 本帖最後由 literr 於 2008-7-29 11:39 編輯 ]
《解決方案》

詳細的信息,包括:
#fence_ilo -a 192.168.0.1 -l redhat -p 123456789 -o status
錯誤輸出,拓撲結構圖,cluster.conf,hosts,route -n等
fence設備一般不需要系統發現,在產生fence動作的時候,按照cman <---> fenced <----> fence_agent的方式來進行。也就是說fence_node命令成功才可確認fence是OK的。

沒有fence的cluster,危險性是比較高的。看來LZ的活沒有干好啊!
《解決方案》

回復 #2 jerrywjl 的帖子

呵呵,用直連網線做心跳,可以做重新啟動伺服器(1台)的測試,但不能做拔網線的測試,更不能撥電源

從接手到去實施,不到2周時間,整天調試腦袋都大了……oracle 不熟,lvm不熟,直連存儲不熟,cluster不熟……
《解決方案》

原帖由 literr 於 2008-7-29 11:51 發表 http://linux.chinaunix.net/bbs/images/common/back.gif
呵呵,用直連網線做心跳,可以做重新啟動伺服器(1台)的測試,但不能做拔網線的測試,更不能撥電源

從接手到去實施,不到2周時間,整天調試腦袋都大了……oracle 不熟,lvm不熟,直連存儲不熟,cluster不熟……


忌諱用直連網線做心跳,一旦心跳斷了,誰fence誰?
正確的方式應該是使用交換機來連接心跳線,並且我們推薦把心跳和服務放到一起。

這麼折騰出來的cluster客戶能驗收嗎?!
《解決方案》

問題就在於fence識別不出來,只好用第2對網卡互連做心跳線了
《解決方案》

原帖由 literr 於 2008-7-29 14:07 發表 http://linux.chinaunix.net/bbs/images/common/back.gif
問題就在於fence識別不出來,只好用第2對網卡互連做心跳線了

fence識別不出來?怎麼個識別不出來?
《解決方案》

在Cluster Management里將有關fence項加入,試圖使用ilo卡來接替網卡心跳線工作,cluster啟動失敗;使用如下命令檢測ilo卡,也返回超時失敗消息:
#fence_ilo -a 192.168.0.1 -l redhat -p 123456789 -o status



fence在cluster.conf代碼如下

……
<fencedevices>
                <fencedevice agent="fence_ilo" hostname="192.168.0.1" login="redhat" name="hpilo01" passwd="123456789"/>
                <fencedevice agent="fence_ilo" hostname="192.168.0.2" login="redhat" name="hpilo02" passwd="123456789"/>
        </fencedevices>
……
如上,在GUI界面添加fence設備,保存后,同步cluster.conf文件到另一伺服器,然後重新啟動cluster就報錯誤了(之前已經修改/etc/hosts文件並確認無誤了)
至於錯誤信息,我記得無非是找不到fence設備

我現在無法遠程連上客戶的伺服器,沒有許可權,我已經回北京了

[ 本帖最後由 literr 於 2008-7-29 16:28 編輯 ]
《解決方案》

如上,在GUI界面添加fence設備,保存后,同步cluster.conf文件到另一伺服器,然後重新啟動cluster就報錯誤了
至於錯誤信息,我記得無非是找不到fence設備

我現在無法遠程連上客戶的伺服器,沒有許可權,我已經回北京了
我沒有碰到過在RHEL4U5上找不到ILO的情況,從來沒有。所以說關鍵是提供出錯信息嘛。
《解決方案》

你在伺服器上能ping通hp lio那個口的ip地址嗎?我看你把fence設備的地址設成的是私有的ip,建議換成業務網段的ip。這樣心跳和數據就在一個網口上,可能會好點。
《解決方案》

原帖由 yfort 於 2008-7-30 13:12 發表 http://linux.chinaunix.net/bbs/images/common/back.gif
你在伺服器上能ping通hp lio那個口的ip地址嗎?

這個我可以確認,兩台伺服器起用ilo卡前,我肯定要測試一下互相能否ping通對方和自己ILO卡的IP的

我看你把fence設備的地址設成的是私有的ip,建議換成業務網段的ip。這樣心跳和數據就在一個網口上,可能會好點。

這個客戶似乎不允許,他們的IP早已經規劃好了,不想再分給我2個IP地址的




[火星人 via ] AS4 U5 cluster + ORACLE ,Fence設備無法發現已經有267次圍觀

http://www.coctec.com/docs/service/show-post-7186.html