求助 Failed changing RG status 錯誤的解決方法
我在自己的機器上裝了RHEL 5.1 安裝的時候選擇安裝了XEN。
在上面建了三個虛擬機用來做集群的實驗。配置文件在本文最下方。
其中node1的優先順序為1,node2和node3的優先順序為2。啟動后一切正
常。httpd的服務運行在了node1上。此時,在node1上將eth0當掉。服
務會自動切換到node2上,且服務正常,此時node1會被自動fence掉,
並重啟。當node1重啟加入集群后。服務理論上會從node2切換回node1
上,可事實並非如此,這時候可以在日誌里看到
Jul 26 15:04:13 c7n2 openais: got joinlist message from node 1
Jul 26 15:04:13 c7n2 clurgmgrd: <notice> Relocating service:webby to better node c7n1.example.com
Jul 26 15:04:13 c7n2 clurgmgrd: <notice> Stopping service service:webby
Jul 26 15:04:18 c7n2 kernel: dlm: connecting to 2
Jul 26 15:04:28 c7n2 clurgmgrd: <err> #52: Failed changing RG status
此時用clustat命令可以看到
Service Name Owner (Last) State
------- ---- ----- ------ -----
service:webby (c7n2.example.com) failed
整個集群不能正常提供服務了。此時在node2上查看,本應該釋放的資源並沒有
被釋放掉。下面是我的集群配置文件,請各位老大指教。
# cat /etc/cluster/cluster.conf
<?xml version="1.0"?>
<cluster alias="testcluster" config_version="11" name="testcluster">
<fence_daemon clean_start="0" post_fail_delay="0" post_join_delay="4"/>
<clusternodes>
<clusternode name="c7n2.example.com" nodeid="1" votes="1">
<fence>
<method name="1">
<device domain="node2" name="testfence"/>
</method>
</fence>
</clusternode>
<clusternode name="c7n1.example.com" nodeid="2" votes="1">
<fence>
<method name="1">
<device domain="node1" name="testfence"/>
</method>
</fence>
</clusternode>
<clusternode name="c7n3.example.com" nodeid="3" votes="1">
<fence>
<method name="1">
<device domain="node3" name="testfence"/>
</method>
</fence>
</clusternode>
</clusternodes>
<cman/>
<fencedevices>
<fencedevice agent="fence_xvm" name="testfence"/>
</fencedevices>
<rm>
<failoverdomains>
<failoverdomain name="testfo" ordered="1" restricted="1">
<failoverdomainnode name="c7n2.example.com" priority="2"/>
<failoverdomainnode name="c7n1.example.com" priority="1"/>
<failoverdomainnode name="c7n3.example.com" priority="2"/>
</failoverdomain>
</failoverdomains>
<resources>
<ip address="172.16.50.76" monitor_link="1"/>
<fs device="/dev/sda1" force_fsck="0" force_unmount="0" fsid="8669" fstype="ext3" mountpoint="/var/www/html" name="docroot" self_fence="0"/>
<apache config_file="conf/httpd.conf" name="httpd" server_root="/etc/httpd" shutdown_wait="0"/>
</resources>
<service autostart="1" domain="testfo" exclusive="0" name="webby" recovery="relocate">
<ip ref="172.16.50.76"/>
<fs ref="docroot"/>
<apache ref="httpd"/>
</service>
</rm>
<fence_xvmd/>
</cluster>
《解決方案》
vm fence的問題
《解決方案》
原帖由 kns1024wh 於 2009-7-27 22:02 發表 http://linux.chinaunix.net/bbs/images/common/back.gif
vm fence的問題
這肯定不是vm fence的問題。因為ifconfig eth0 down可以被別的機器正常fence掉,進入重啟過程。我個人感覺象是cman的BUG。