拔心跳線，兩節點反覆重啟

←手機掃碼閱讀火星人 @ 2014-03-04 , reply:0

拔心跳線，兩節點反覆重啟

兩台伺服器，redhat cluster集群，oracle資料庫。伺服器是DELL，、
fence設備：DRAC
心跳線是一根網線直連的。

問題：拔掉心跳線，伺服器A自動關機，伺服器B自動重啟。
B啟動到fence時，就會自動將A機器觸發啟動。B繼續啟動並進入系統啟動數據資料庫正常。
但A緊接著，也進入系統，並直接將B伺服器重啟掉，自己接過資源和服務。

如此反覆，兩節點之間一直在反覆重啟。不過高手是否見過類似情況。謝謝

網路上也看到一篇類似的情況文章。不過他解決了，我一樣的設置（oracle腳本不一樣），附件為自己用的腳本文件。卻始終沒辦法解決。

附網上文章
樓主發表於：2009-03-11 23:35:05大概內容參照文檔史應生版的
但是幾個內容需要注意
一是搞清楚 redhat群集裡面包含的network種類和作用
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||、
public interface （公網ip，浮動ip飄在上面）
private interface（心跳線）群集通過私網心跳線在兩台主機間確定對方是否還活著。
fence network(所謂的籬笆網路）
這個fence network可以建立在 private interface 上，又可以加在public interface上，當群集發現狀態不對時，會通過fence network做重啟機器的工作。
注意了，群集怎麼才能根據（你的）配置來認為某個網路是心跳網路，或者是public網路呢。
我之前沒弄懂就吃過這個虧。
  原來，需要在/etc/hosts裡面定義，
比如我的hosts表如下:
# Do not remove the following line, or various programs
# that require network functionality will fail.
127.0.0.1       localhost.localdomain       localhost
::1       localhost6.localdomain6       localhost6
#172.16.100.5       linux-2
#172.16.100.3       linux-1
13.13.13.3 linux-1
13.13.13.4 linux-2
172.16.100.2       linux-fd
192.168.10.10       BACKUPSERVER
從上面定義的hosts表，群集就會這樣認為:
13.13.13.3就是主機名為linux-1的私網心跳IP，
13.13.13.4就是主機名為linux-2的私網心跳IP.
注意了，如果私網心跳斷掉的話，群集的兩台機器都會認為對方掛掉了。
(因為群集是通過心跳來了解對方信息的）
如果此時fence走的不是心跳（走的是public)
而且正常工作的話，
兩台機器會不斷地重啟。
這是因為一邊認為對方不正常了，一起來就通過fence把對方幹掉，
而另一邊也不甘示弱。
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||、
關於伺服器的腳本，

群集服務的腳本要符合linux腳本規範，
具體的說，是一定要實現三個功能:
start，stop,status
那我的腳本舉例來說：
群集是在兩台伺服器之間管理oracle10g的服務，
1.這個腳本能啟動群集服務，(對應我的群集就是能啟動oracle服務及oracle Listener)。
2.能夠關閉群集服務。
3.能夠查看群集服務狀態。
注意:
這個status很重要，它在群集服務不正常的時候應該是 exit 1，
正常的時候應該是 exit 0。
群集會定時的執行status腳本來查看服務的運行狀態，以此來確定群集本身的狀態。

晒晒我的oracle10g 腳本
#!/bin/bash
# /etc/rc.d/init.d/oracle10g
# chkconfig: 2345 02 98
# description: oracle10g is meant to run under Linux Oracle Server
# Source function library.
/etc/rc.d/init.d/functions
PATH=/usr/local/sbin:$PATH
ORACLE_HOME=/u01/app/oracle
ORACLE_NAME=oracle
RETVAL=0
#Start the oracle Server
#The following command assumes that the oracle login will not prompt the password
start() {
echo -n "Starting Oracle10G Server:"
su - $ORACLE_NAME -c '$ORACLE_HOME/bin/lsnrctl start'
su - oracle -c ".  /u01/cluster/script/oracle_start"  >>/u01/cluster/script/oracle_start.log

echo
}
stop() {
echo -n "Shutting down Oracle9iR2 Server:"
su - $ORACLE_NAME -c '$ORACLE_HOME/bin/lsnrctl stop'
su - oracle -c "/u01/cluster/script/oracle_stop"  >>/u01/cluster/script/oracle_stop.log

echo
}
restart() {
echo -n "Restart Oracle10G Server"
stop
start
echo
}
case "$1" in
start)
start
;;
stop)
stop
exit 0
;;
status)
ps -ef |grep -v grep |grep -q ora_smon
if [ $? = 0 ]
then
echo "oracle is running"
exit 0
fi
echo "oracle is not running"
exit 1
;;
restart|reload)
stop
start
;;
*)
echo "Usage: $0 {start|stop|reload|restart|status}"
exit 1
;;
esac
exit 0
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
關於fence設備和群集切換試驗
當初最不懂的就是fence這一塊，這個項目做了之後，對它理解也就比較清晰了，
說白了fence就是用來互相重啟的。因為群集的一個節點接管資源的時候，
如果不知道對方的狀態，或發現對方的狀態異常，就可以通過這個fence來幹掉對方，
防止兩邊都掛上磁碟陣列，並同時對盤陣讀寫的情況出現。

所以做為fence設備，一定要有這個能力，就是遠程接受重啟主機的命令，並幹掉主機（POWER RESTART)
一般能做fence的設備有兩類，
一種是外置的，比如一些交換機，電源控制器等等
一種是內置的，比如我這個項目用到的HP IlO
fence的支持列表可以在紅帽的官方文檔裡面查到（我的資源里可以下載相關文檔）

我做群集的切換測試的時候，
一旦拔掉心跳線（我做的是直連的），兩邊就都被對方幹掉了。
因為fence走的是public,沒有被影響，
但是心跳線掉了，於是兩個節點間就不斷的互相PK。
如果做的是外置fence就不會有這個問題了。
或者按照redhat工程師的建議，還是走內置fence,但是還要添加一個vote盤，用於投票決定哪台機器真正有問題，然後讓fence老大把有問題的幹掉。（文檔裡面有，但我沒有做這個了）
我的群集切換測試實現了這個功能，
就是一旦一邊的oracle服務不正常了，
另一邊會接管它。
這個需要在配置群集時，群集模式上選擇 relocate才行（不能是默認的 restart)。

《解決方案》

原帖由 hgk117 於 2009-9-17 11:13 發表 http://linux.chinaunix.net/bbs/images/common/back.gif
謝謝樓上的回答，你是說心跳也要用兩根網路線連到交換機上就可以了？
奇怪，為怎麼會這樣？

很簡單，假如說你就有兩條線，一條心跳，一條fence，如果拔掉一台機器的心跳，實際上兩邊都會去fence對方，但是只有心跳沒有斷的那台能夠把心跳的動作發出去。
這樣哪台心跳被斷，哪台就會被對方重啟。而被重啟的機器如果心跳不連上，將無法再次加入到集群中。

所以你們所謂的拔線測試，看到的效果應該是，拔了心跳，fence了，接上，看能否再加入集群；你如果拔了老不接上，可不是互相fence？！

《解決方案》

恭喜LZ。這種情況正常。因為你心跳線是直連的，但反覆重啟至少證明你fence沒有問題。

你要不想這種情況出現，那麼心跳、服務和fence都接到交換機上去。

《解決方案》

謝謝樓上的回答，你是說心跳也要用兩根網路線連到交換機上就可以了？
奇怪，為怎麼會這樣？

《解決方案》

原帖由 jerrywjl 於 2009-9-17 11:41 發表 http://linux.chinaunix.net/bbs/images/common/back.gif

很簡單，假如說你就有兩條線，一條心跳，一條fence，如果拔掉一台機器的心跳，實際上兩邊都會去fence對方，但是只有心跳沒有斷的那台能夠把心跳的動作發出去。
這樣哪台心跳被斷，哪台就會被對方重啟。而 ...

非常感謝樓上的。再請教高手一下，拔心跳線后，兩機的心跳網卡都link down了，按上面的說法，這會兒應該是兩機都不能加入到集群裡面了，但是，事實上是，重啟好的那一台會獲取磁櫃資源，並啟動了oracle服務啊。

還有，第一次測試，撥心跳的時候，為什麼一台的會關機，而另一台是重啟？謝謝！！

《解決方案》

原帖由 hgk117 於 2009-9-17 13:04 發表 http://linux.chinaunix.net/bbs/images/common/back.gif

非常感謝樓上的。再請教高手一下，拔心跳線后，兩機的心跳網卡都link down了，按上面的說法，這會兒應該是兩機都不能加入到集群裡面了，但是，事實上是，重啟好的那一台會獲取磁櫃資源，並啟動了oracle服 ...

如果心跳斷開，兩台機器會同時fence對方，不過總會有點時間上的差異，那麼成功幹掉對方的那台會以單節點的形式維護原來的集群，而不是你想象的兩台機器都不能加入集群。

對於你第一次測試的問題，確認兩台機器的acpid服務關閉。

《解決方案》

回復 #6 jerrywjl 的帖子

acpid 0:off 1:off 2:off 3:on 4:on 5:on 6:off

謝謝樓上的高手，確實是開著的。

還有，fence設備的IP是否需要跟心跳的IP處於同一個網段呢？還是要跟服務IP同一個網段的？謝謝

[ 本帖最後由 hgk117 於 2009-9-17 17:13 編輯 ]

Tags:

[火星人 ] 拔心跳線，兩節點反覆重啟已經有1029次圍觀

本文地址：http://coctec.com/docs/service/show-post-6124.html

拔心跳線，兩節點反覆重啟

拔心跳線，兩節點反覆重啟

回復 #6 jerrywjl 的帖子

熱門文章

最新文章