歡迎您光臨本站 註冊首頁

rh的gfs疑問【已解決】

←手機掃碼閱讀     火星人 @ 2014-03-04 , reply:0

rh的gfs疑問【已解決】

最近在做兩台機器的gfs共享,fence用的ibm的bmc(ipmilan),發現只要一台機器的共享存儲無法訪問,另一台機器跟著被拖下水,紅帽官方資料資料也說了gfs兩台沒法冗餘(http://www.redhat.com.cn/kbase/3851.php),日誌里報這樣的錯:
Cluster is not quorate.  Refusing connection.
Error while processing connect: Connection refused。
我的gfs節點名是指定到心跳的網卡而非外網口網卡。
這裡有兄弟能介紹下gfs可能造成這種錯誤誘因么?(人為的拔線除外)

[ 本帖最後由 galford433 於 2008-9-29 19:45 編輯 ]
《解決方案》

原帖由 galford433 於 2008-9-17 14:27 發表 http://linux.chinaunix.net/bbs/images/common/back.gif
最近在做兩台機器的gfs共享,fence用的ibm的bmc(ipmilan),發現只要一台機器的共享存儲無法訪問,另一台機器跟著被拖下水,紅帽官方資料資料也說了gfs兩台沒法冗餘(http://www.redhat.com.cn/kbase/3851.php) ...

gfs早使用分散式鎖管理dlm了,不存在你說的兩台機無法冗餘,kbase上的是基於「相關版本: 紅帽企業版Linux 3 」的。
《解決方案》

喔,但是我在測試時發現一旦我把某台機器給關了,共享盤就訪問不了了,日誌里一直刷上面的錯誤直到那台機器起來,一直沒找准問題所在……
難道是quorum的問題?
《解決方案》

你做的結構有問題,整體貼出來分析一下
《解決方案》

貌似Fence的問題。把你的日誌貼出來吧。
《解決方案》

除了配置過程,物理結構很關係的。我估計,你的連接方面就有問題。但是需要更多的東西分析。
《解決方案》

幾天沒來了……感謝各位大大的幫忙。那兩台測試機給我重新胡來了一次,正在測靠heartbeat掌管共享盤的試驗(專門寫了個檢測共享盤掛載的腳本,結合heartbeat自己的腳本,並且把它respawn了),目前還在看效果,所以原機上的配置只有我備份的了:

連法就是兩台機器hba卡連到陣列,一對網卡心跳(ha1,ha2),一對網卡出去,fence用的ibm bmc(ipmi)
cluster.conf

<?xml version="1.0"?>
<cluster alias="new_cluster" config_version="5" name="new_cluster">
<quorumd device="/dev/sdc2" interval="5" label="qdisk" min_score="3" tko="12" votes="1">
<heuristic interval="2" program="/bin/true" score="1"/>
</quorumd>
<fence_daemon post_fail_delay="0" post_join_delay="3"/>
<clusternodes>
<clusternode name="ha1" nodeid="1" votes="1">
<fence>
<method name="1">
<device lanplus="" name="fence_bmc1"/>
</method>
</fence>
</clusternode>
<clusternode name="ha2" nodeid="2" votes="1">
<fence>
<method name="1">
<device lanplus="" name="fence_bmc2"/>
</method>
</fence>
</clusternode>
</clusternodes>
<cman expected_votes="1" two_node="1"/>
<fencedevices>
<fencedevice agent="fence_ipmilan" auth="password" ipaddr="10.0.0.40" login="USERID" name="fence_bmc1" passwd="PASSW0RD"/>
<fencedevice agent="fence_ipmilan" auth="password" ipaddr="10.0.0.41" login="USERID" name="fence_bmc2" passwd="PASSW0RD"/>
</fencedevices>
<rm>
<failoverdomains>
<failoverdomain name="cluster_failover" ordered="0" restricted="0">
<failoverdomainnode name="ha1" priority="1"/>
<failoverdomainnode name="ha2" priority="1"/>
</failoverdomain>
</failoverdomains>
<resources>
<clusterfs device="/dev/sdc3" force_unmount="0" fsid="15000" fstype="gfs" mountpoint="/db" name="new_cluster:gfs2" options=""/>
</resources>
</rm>
</cluster>

報錯就是上面提到的那樣
我只是想知道一般都有什麼原因導致錯誤的發生,因為日誌里完全沒看出來,就只提到quorum丟失然後開始刷
Cluster is not quorate.  Refusing connection.
Error while processing connect: Connection refused。
出現過兩次這種情況,其中一次是我朝上面插了個U盤……
《解決方案》

試一下GFS2!!

:mrgreen:
《解決方案》

原帖由 galford433 於 2008-9-29 02:10 發表 http://linux.chinaunix.net/bbs/images/common/back.gif
幾天沒來了……感謝各位大大的幫忙。那兩台測試機給我重新胡來了一次,正在測靠heartbeat掌管共享盤的試驗(專門寫了個檢測共享盤掛載的腳本,結合heartbeat自己的腳本,並且把它respawn了),目前還在看效果, ...


把你的quorum disk去了,這個地方有問題!而且two node cluster不需要qdisk。
《解決方案》

回復 #9 jerrywjl 的帖子

3Q,用quorum只是想降低腦裂的風險,如果2個點quorum真的沒意義的話偶就把它扔了:mrgreen:

[火星人 ] rh的gfs疑問【已解決】已經有602次圍觀

http://coctec.com/docs/service/show-post-7052.html