rh的gfs疑問【已解決】

←手機掃碼閱讀火星人 @ 2014-03-04 , reply:0

rh的gfs疑問【已解決】

最近在做兩台機器的gfs共享，fence用的ibm的bmc(ipmilan)，發現只要一台機器的共享存儲無法訪問，另一台機器跟著被拖下水，紅帽官方資料資料也說了gfs兩台沒法冗餘（http://www.redhat.com.cn/kbase/3851.php），日誌里報這樣的錯：
Cluster is not quorate. Refusing connection.
Error while processing connect: Connection refused。
我的gfs節點名是指定到心跳的網卡而非外網口網卡。
這裡有兄弟能介紹下gfs可能造成這種錯誤誘因么？（人為的拔線除外）

[ 本帖最後由 galford433 於 2008-9-29 19:45 編輯 ]

《解決方案》

原帖由 galford433 於 2008-9-17 14:27 發表 http://linux.chinaunix.net/bbs/images/common/back.gif
最近在做兩台機器的gfs共享，fence用的ibm的bmc(ipmilan)，發現只要一台機器的共享存儲無法訪問，另一台機器跟著被拖下水，紅帽官方資料資料也說了gfs兩台沒法冗餘（http://www.redhat.com.cn/kbase/3851.php） ...

gfs早使用分散式鎖管理dlm了，不存在你說的兩台機無法冗餘，kbase上的是基於「相關版本: 紅帽企業版Linux 3 」的。

《解決方案》

喔，但是我在測試時發現一旦我把某台機器給關了，共享盤就訪問不了了，日誌里一直刷上面的錯誤直到那台機器起來，一直沒找准問題所在……
難道是quorum的問題？

《解決方案》

你做的結構有問題，整體貼出來分析一下

《解決方案》

貌似Fence的問題。把你的日誌貼出來吧。

《解決方案》

除了配置過程，物理結構很關係的。我估計，你的連接方面就有問題。但是需要更多的東西分析。

《解決方案》

幾天沒來了……感謝各位大大的幫忙。那兩台測試機給我重新胡來了一次，正在測靠heartbeat掌管共享盤的試驗（專門寫了個檢測共享盤掛載的腳本，結合heartbeat自己的腳本，並且把它respawn了），目前還在看效果，所以原機上的配置只有我備份的了：

連法就是兩台機器hba卡連到陣列，一對網卡心跳（ha1,ha2），一對網卡出去，fence用的ibm bmc(ipmi)
cluster.conf

<?xml version="1.0"?>
<cluster alias="new_cluster" config_version="5" name="new_cluster">
<quorumd device="/dev/sdc2" interval="5" label="qdisk" min_score="3" tko="12" votes="1">
<heuristic interval="2" program="/bin/true" score="1"/>
</quorumd>
<fence_daemon post_fail_delay="0" post_join_delay="3"/>
<clusternodes>
<clusternode name="ha1" nodeid="1" votes="1">
<fence>
<method name="1">
<device lanplus="" name="fence_bmc1"/>
</method>
</fence>
</clusternode>
<clusternode name="ha2" nodeid="2" votes="1">
<fence>
<method name="1">
<device lanplus="" name="fence_bmc2"/>
</method>
</fence>
</clusternode>
</clusternodes>
<cman expected_votes="1" two_node="1"/>
<fencedevices>
<fencedevice agent="fence_ipmilan" auth="password" ipaddr="10.0.0.40" login="USERID" name="fence_bmc1" passwd="PASSW0RD"/>
<fencedevice agent="fence_ipmilan" auth="password" ipaddr="10.0.0.41" login="USERID" name="fence_bmc2" passwd="PASSW0RD"/>
</fencedevices>
<rm>
<failoverdomains>
<failoverdomain name="cluster_failover" ordered="0" restricted="0">
<failoverdomainnode name="ha1" priority="1"/>
<failoverdomainnode name="ha2" priority="1"/>
</failoverdomain>
</failoverdomains>
<resources>
<clusterfs device="/dev/sdc3" force_unmount="0" fsid="15000" fstype="gfs" mountpoint="/db" name="new_cluster:gfs2" options=""/>
</resources>
</rm>
</cluster>

報錯就是上面提到的那樣
我只是想知道一般都有什麼原因導致錯誤的發生，因為日誌里完全沒看出來，就只提到quorum丟失然後開始刷
Cluster is not quorate. Refusing connection.
Error while processing connect: Connection refused。
出現過兩次這種情況，其中一次是我朝上面插了個U盤……

《解決方案》

試一下GFS2!!

:mrgreen:

《解決方案》

原帖由 galford433 於 2008-9-29 02:10 發表 http://linux.chinaunix.net/bbs/images/common/back.gif
幾天沒來了……感謝各位大大的幫忙。那兩台測試機給我重新胡來了一次，正在測靠heartbeat掌管共享盤的試驗（專門寫了個檢測共享盤掛載的腳本，結合heartbeat自己的腳本，並且把它respawn了），目前還在看效果， ...

把你的quorum disk去了，這個地方有問題！而且two node cluster不需要qdisk。

《解決方案》

回復 #9 jerrywjl 的帖子

3Q,用quorum只是想降低腦裂的風險，如果2個點quorum真的沒意義的話偶就把它扔了:mrgreen:

Tags:

[火星人 ] rh的gfs疑問【已解決】已經有602次圍觀

本文地址：http://coctec.com/docs/service/show-post-7052.html

rh的gfs疑問【已解決】

rh的gfs疑問【已解決】

回復 #9 jerrywjl 的帖子

熱門文章

最新文章