<div dir="ltr">Hi,<div><br></div><div>I have setup a 2 node cluster, using the following packages:</div><div><br></div><div>pacemaker                           1.1.10+git20130802-1ubuntu2<br></div><div>corosync                            2.3.3-1ubuntu1<br>
</div><div><br></div><div>My cluster config is as so:</div><div><br></div><div><div>node $id=&quot;12303&quot; ldb03</div><div>node $id=&quot;12304&quot; ldb04</div><div>primitive p_fence_ldb03 stonith:external/vcenter \</div>
<div>        params VI_SERVER=&quot;10.17.248.10&quot; VI_CREDSTORE=&quot;/root/.vmware/credstore/vicredentials.xml&quot; HOSTLIST=&quot;ldb03=ldb03&quot; RESETPOWERON=&quot;0&quot; pcmk_host_check=&quot;static-list&quot; pcmk_host_list=&quot;ldb03&quot; \</div>
<div>        op start interval=&quot;0&quot; timeout=&quot;500s&quot;</div><div>primitive p_fence_ldb04 stonith:external/vcenter \</div><div>        params VI_SERVER=&quot;10.17.248.10&quot; VI_CREDSTORE=&quot;/root/.vmware/credstore/vicredentials.xml&quot; HOSTLIST=&quot;ldb04=ldb04&quot; RESETPOWERON=&quot;0&quot; pcmk_host_check=&quot;static-list&quot; pcmk_host_list=&quot;ldb04&quot; \</div>
<div>        op start interval=&quot;0&quot; timeout=&quot;500s&quot;</div><div>primitive p_fs_mysql ocf:heartbeat:Filesystem \</div><div>        params device=&quot;nfsserver:/LDB_Cluster1&quot; directory=&quot;/var/lib/mysql&quot; fstype=&quot;nfs&quot; options=&quot;relatime,rw,hard,nointr,rsize=32768,wsize=32768,bg,vers=3,proto=tcp&quot; \</div>
<div>        op start interval=&quot;0&quot; timeout=&quot;60s&quot; \</div><div>        op stop interval=&quot;0&quot; timeout=&quot;120s&quot; \</div><div>        op monitor interval=&quot;60s&quot; timeout=&quot;60s&quot; \</div>
<div>        meta is-managed=&quot;true&quot;</div><div>primitive p_ip_1 ocf:heartbeat:IPaddr2 \</div><div>        params ip=&quot;10.10.10.11&quot; cidr_netmask=&quot;25&quot; \</div><div>        op monitor interval=&quot;30s&quot; \</div>
<div>        meta target-role=&quot;Started&quot; is-managed=&quot;true&quot;</div><div>primitive p_ip_2 ocf:heartbeat:IPaddr2 \</div><div>        params ip=&quot;10.10.10.12&quot; cidr_netmask=&quot;25&quot; \</div><div>
        op monitor interval=&quot;30s&quot; \</div><div>        meta target-role=&quot;Started&quot; is-managed=&quot;true&quot;</div><div>primitive p_ip_3 ocf:heartbeat:IPaddr2 \</div><div>        params ip=&quot;10.10.10.13&quot; cidr_netmask=&quot;25&quot; \</div>
<div>        op monitor interval=&quot;30s&quot; \</div><div>        meta target-role=&quot;Started&quot; is-managed=&quot;true&quot;</div><div>primitive p_mysql ocf:heartbeat:mysql \</div><div>        params datadir=&quot;/var/lib/mysql&quot; binary=&quot;/usr/bin/mysqld_safe&quot; socket=&quot;/var/run/mysqld/mysqld.sock&quot; \</div>
<div>        op start interval=&quot;0&quot; timeout=&quot;120&quot; \</div><div>        op stop interval=&quot;0&quot; timeout=&quot;120&quot; \</div><div>        op monitor interval=&quot;20&quot; timeout=&quot;30&quot; \</div>
<div>        meta target-role=&quot;Started&quot; is-managed=&quot;true&quot;</div><div>group g_mysql p_fs_mysql p_mysql p_ip_1 p_ip_2 p_ip_3 \</div></div><div><div>location l_fence_ldb03 p_fence_ldb03 -inf: ldb03<br></div>
<div>location l_fence_ldb04 p_fence_ldb04 -inf: ldb04</div><div>property $id=&quot;cib-bootstrap-options&quot; \</div><div>        dc-version=&quot;1.1.10-42f2063&quot; \</div><div>        cluster-infrastructure=&quot;corosync&quot; \</div>
<div>        no-quorum-policy=&quot;ignore&quot; \</div><div>        stonith-enabled=&quot;true&quot; \</div><div>        stop-all-resources=&quot;false&quot; \</div><div>        expected-quorum-votes=&quot;2&quot; \</div>
<div>        last-lrm-refresh=&quot;1407325251&quot;</div></div><div><br></div><div><br></div><div>This exact configuration has worked during the setup, but I have encountered a problem with my inactive node ldb03. Corosync shows this node as up:</div>
<div><br></div><div><div>root@ldb03:~# corosync-cmapctl | grep members</div><div>runtime.totem.pg.mrp.srp.members.12303.config_version (u64) = 0</div><div>runtime.totem.pg.mrp.srp.members.12303.ip (str) = r(0) ip(10.10.10.8)</div>
<div>runtime.totem.pg.mrp.srp.members.12303.join_count (u32) = 1</div><div>runtime.totem.pg.mrp.srp.members.12303.status (str) = joined</div><div>runtime.totem.pg.mrp.srp.members.12304.config_version (u64) = 0</div><div>runtime.totem.pg.mrp.srp.members.12304.ip (str) = r(0) ip(10.10.10.9)</div>
<div>runtime.totem.pg.mrp.srp.members.12304.join_count (u32) = 1</div><div>runtime.totem.pg.mrp.srp.members.12304.status (str) = joined</div></div><div><br></div><div>and crm status and crm node status show it as online:</div>
<div><br></div><div><div>Last updated: Wed Aug  6 14:16:24 2014<br></div><div>Last change: Wed Aug  6 14:02:00 2014 via crm_resource on ldb04</div><div>Stack: corosync</div><div>Current DC: ldb04 (12304) - partition with quorum</div>
<div>Version: 1.1.10-42f2063</div><div>2 Nodes configured</div><div>7 Resources configured</div><div>Online: [ ldb03 ldb04 ]<br></div></div><div><br></div><div><div>root@ldb03:~# crm node status</div><div>&lt;nodes&gt;</div>
<div>  &lt;node id=&quot;12304&quot; uname=&quot;ldb04&quot;/&gt;</div><div>  &lt;node id=&quot;12303&quot; uname=&quot;ldb03&quot;/&gt;</div><div>&lt;/nodes&gt;</div></div><div><br></div><div><br></div><div>but....after seeing this entry in my logs:</div>
<div>Aug  6 13:26:23 ldb03 cibadmin[2140]:   notice: crm_log_args: Invoked: cibadmin -M -c -o status --xml-text &lt;node_state id=&quot;ldb03&quot; uname=&quot;ldb03&quot; ha=&quot;active&quot; in_ccm=&quot;false&quot; crmd=&quot;offline&quot; join=&quot;member&quot; expected=&quot;down&quot; crm-debug-origin=&quot;manual_clear&quot; shutdown=&quot;0&quot;/&gt;<br>
</div><div><br></div><div>I noticed that cibadmin shows it as normal(offline)</div><div><div>root@ldb03:~# crm node show</div><div>ldb04(12304): normal</div><div>ldb03(12303): normal(offline)</div></div><div><br></div><div>
The offline state is not present in anything but cibadmin. Not the cib.xml, not corosync-quorumtool and a tcpdump shows multicast traffic from both hosts.</div><div><br></div><div>I tried (hesitantly) to delete the line using cibadmin, but I couldn&#39;t quite get the syntax right. Any tips on how to get this node to show as online and subsequently be able to run resources? Currently, when I run crm resource move, this has no effect, no errors and nothing noticeable in the logfiles either.</div>
<div><br></div><div>Sorry for long thread....I can attach more logs/config if necessary.</div><div><br></div><div>Thanks,</div><div><br></div><div>Jamie.<br></div></div>