<div dir="ltr">Hello.<div><br></div><div>I have a 3-node cluster where node1 and node2 are running corosync+pacemaker and node3 is running corosync only (for quorum). Corosync 2.3.3, pacemaker 1.1.10. Everything worked fine the first couple of days.</div><div><br></div><div>Once upon a time I discovered the following situation: node2 thinks that both node1 and node2 are online, but node1 thinks that node2 is down. Could you please say: how could it be? There are no connectivity problems between the nodes at the moment (maybe they were, but why the system hasn&#39;t recovered?). The &quot;crm status&quot; is below. What other logs should I attach for the diagnostics?</div><div><br></div><div>Also, &quot;service corosync stop&quot; on node1 hangs forever with no additional lines in logs, so I cannot even stop the service. (But after &quot;service corosync stop&quot; on node1 the node node2 starts thinking that node1 is offline, although the command still hangs.)</div><div><br></div><div><br></div><div><div>root@node2:~# crm status</div><div>Current DC: node1 (1760315215) - partition with quorum<br></div><div>2 Nodes configured<br></div><div>6 Resources configured</div><div>Online: [ node1 node2 ]<br></div><div>Master/Slave Set: ms_drbd [drbd]<br></div><div>     Masters: [ node2 ]</div><div>     Slaves: [ node1 ]</div><div>Resource Group: server</div><div>     fs<span class="" style="white-space:pre">        </span>(ocf::heartbeat:Filesystem):<span class="" style="white-space:pre">        </span>Started node2</div><div>     postgresql<span class="" style="white-space:pre">        </span>(lsb:postgresql):<span class="" style="white-space:pre">        </span>Started node2</div><div>     bind9<span class="" style="white-space:pre">        </span>(lsb:bind9):<span class="" style="white-space:pre">        </span>Started node2</div><div>     nginx<span class="" style="white-space:pre">        </span>(lsb:nginx):<span class="" style="white-space:pre">        </span>Started node2</div></div><div><br></div><div><br></div><div><div>root@node1:/var/log# crm status</div><div>Current DC: node1 (1760315215) - partition with quorum<br></div><div>2 Nodes configured<br></div><div>6 Resources configured</div><div>Online: [ node1 ]<br></div><div>OFFLINE: [ node2 ]</div><div>Master/Slave Set: ms_drbd [drbd]<br></div><div>     Masters: [ node1 ]</div><div>     Stopped: [ node2 ]</div><div>Resource Group: server</div><div>     fs<span class="" style="white-space:pre">        </span>(ocf::heartbeat:Filesystem):<span class="" style="white-space:pre">        </span>Started node1</div><div>     postgresql<span class="" style="white-space:pre">        </span>(lsb:postgresql):<span class="" style="white-space:pre">        </span>Started node1</div><div>     bind9<span class="" style="white-space:pre">        </span>(lsb:bind9):<span class="" style="white-space:pre">        </span>Started node1</div><div>     nginx<span class="" style="white-space:pre">        </span>(lsb:nginx):<span class="" style="white-space:pre">        </span>Started node1</div><div>Failed actions:<br></div><div>    drbd_promote_0 (node=node1, call=634, rc=1, status=Timed Out, last-rc-change=Thu Jan 22 10:30:08 2015, queued=20004ms, exec=0ms): unknown error</div></div><div><br></div><div><br></div><div><div>A part of &quot;crm configure show&quot;:</div><div><br></div><div><div>property $id=&quot;cib-bootstrap-options&quot; \</div><div>        dc-version=&quot;1.1.10-42f2063&quot; \</div><div>        cluster-infrastructure=&quot;corosync&quot; \</div><div>        stonith-enabled=&quot;false&quot; \</div><div>        last-lrm-refresh=&quot;1421250983&quot;</div><div>rsc_defaults $id=&quot;rsc-options&quot; \</div><div>        resource-stickiness=&quot;100&quot;</div></div></div><div><br></div><div><br></div><div>Also I see in logs on node1 (maybe they&#39;re related to the issue, maybe not):</div><div><br></div><div><div>Jan 22 10:14:02 node1 pengine[2772]:  warning: pe_fence_node: Node node2 is unclean because it is partially and/or un-expectedly down</div><div>Jan 22 10:14:02 node1 pengine[2772]:  warning: determine_online_status: Node node2 is unclean</div><div>Jan 22 10:14:02 node1 pengine[2772]:  warning: stage6: Node node2 is unclean!</div><div>Jan 22 10:14:02 node1 pengine[2772]:  warning: stage6: YOUR RESOURCES ARE NOW LIKELY COMPROMISED</div><div>Jan 22 10:14:02 node1 pengine[2772]:    error: stage6: ENABLE STONITH TO KEEP YOUR RESOURCES SAFE</div></div><div><br></div><div><br></div><div>On node2 the logs are:</div><div><br></div><div><div>Jan 22 10:13:57 node2 corosync[32761]:  [TOTEM ] A new membership (<a href="http://188.166.54.190:6276">188.166.54.190:6276</a>) was formed. Members left: 1760315215 13071578</div><div>Jan 22 10:13:57 node2 crmd[311]:   notice: peer_update_callback: Our peer on the DC is dead</div><div>Jan 22 10:13:57 node2 crmd[311]:   notice: do_state_transition: State transition S_NOT_DC -&gt; S_ELECTION [ input=I_ELECTION cause=C_CRMD_STATUS_CALLBACK origin=peer_update_callback ]</div><div>Jan 22 10:13:57 node2 corosync[32761]:  [QUORUM] This node is within the non-primary component and will NOT provide any services.</div><div>Jan 22 10:13:57 node2 corosync[32761]:  [QUORUM] Members[1]: 1017525950</div><div>Jan 22 10:13:57 node2 crmd[311]:   notice: pcmk_quorum_notification: Membership 6276: quorum lost (1)</div><div>Jan 22 10:13:57 node2 crmd[311]:   notice: crm_update_peer_state: pcmk_quorum_notification: Node (null)[13071578] - state is now lost (was member)</div><div>Jan 22 10:13:57 node2 crmd[311]:   notice: crm_update_peer_state: pcmk_quorum_notification: Node node1[1760315215] - state is now lost (was member)</div><div>Jan 22 10:13:57 node2 pacemakerd[302]:   notice: pcmk_quorum_notification: Membership 6276: quorum lost (1)</div><div>Jan 22 10:13:57 node2 pacemakerd[302]:   notice: crm_update_peer_state: pcmk_quorum_notification: Node node1[1760315215] - state is now lost (was member)</div><div>Jan 22 10:13:57 node2 pacemakerd[302]:   notice: crm_update_peer_state: pcmk_quorum_notification: Node (null)[13071578] - state is now lost (was member)</div><div>Jan 22 10:13:57 node2 corosync[32761]:  [MAIN  ] Completed service synchronization, ready to provide service.</div><div>Jan 22 10:14:01 node2 corosync[32761]:  [TOTEM ] A new membership (<a href="http://104.236.71.79:6288">104.236.71.79:6288</a>) was formed. Members joined: 1760315215 13071578</div><div>Jan 22 10:14:02 node2 crmd[311]:    error: pcmk_cpg_membership: Node node1[1760315215] appears to be online even though we think it is dead</div><div>Jan 22 10:14:02 node2 crmd[311]:   notice: crm_update_peer_state: pcmk_cpg_membership: Node node1[1760315215] - state is now member (was lost)</div><div>Jan 22 10:14:03 node2 corosync[32761]:  [QUORUM] This node is within the primary component and will provide service.</div><div>Jan 22 10:14:03 node2 corosync[32761]:  [QUORUM] Members[3]: 1760315215 13071578 1017525950</div><div>Jan 22 10:14:03 node2 crmd[311]:   notice: pcmk_quorum_notification: Membership 6288: quorum acquired (3)</div><div>Jan 22 10:14:03 node2 pacemakerd[302]:   notice: pcmk_quorum_notification: Membership 6288: quorum acquired (3)</div><div>Jan 22 10:14:03 node2 pacemakerd[302]:   notice: crm_update_peer_state: pcmk_quorum_notification: Node node1[1760315215] - state is now member (was lost)</div><div>Jan 22 10:14:03 node2 corosync[32761]:  [MAIN  ] Completed service synchronization, ready to provide service.</div><div>Jan 22 10:14:03 node2 crmd[311]:   notice: corosync_node_name: Unable to get node name for nodeid 13071578</div><div>Jan 22 10:14:03 node2 crmd[311]:   notice: crm_update_peer_state: pcmk_quorum_notification: Node (null)[13071578] - state is now member (was lost)</div><div>Jan 22 10:14:03 node2 pacemakerd[302]:   notice: corosync_node_name: Unable to get node name for nodeid 13071578</div><div>Jan 22 10:14:03 node2 pacemakerd[302]:   notice: crm_update_peer_state: pcmk_quorum_notification: Node (null)[13071578] - state is now member (was lost)</div><div>Jan 22 10:14:03 node2 crmd[311]:  warning: do_log: FSA: Input I_JOIN_OFFER from route_message() received in state S_ELECTION</div><div>Jan 22 10:14:04 node2 crmd[311]:   notice: do_state_transition: State transition S_ELECTION -&gt; S_PENDING [ input=I_PENDING cause=C_FSA_INTERNAL origin=do_election_count_vote ]</div><div>Jan 22 10:14:05 node2 attrd[310]:   notice: attrd_local_callback: Sending full refresh (origin=crmd)</div><div>Jan 22 10:14:05 node2 attrd[310]:   notice: attrd_trigger_update: Sending flush op to all hosts for: master-drbd (10000)</div><div>Jan 22 10:14:05 node2 attrd[310]:   notice: attrd_trigger_update: Sending flush op to all hosts for: probe_complete (true)</div><div>Jan 22 10:14:05 node2 crmd[311]:   notice: do_state_transition: State transition S_PENDING -&gt; S_NOT_DC [ input=I_NOT_DC cause=C_HA_MESSAGE origin=do_cl_join_finalize_respond ]</div><div>Jan 22 10:15:11 node2 corosync[32761]:  [TOTEM ] A new membership (<a href="http://104.236.71.79:6296">104.236.71.79:6296</a>) was formed. Members left: 13071578</div><div>Jan 22 10:15:14 node2 corosync[32761]:  [TOTEM ] A new membership (<a href="http://128.199.116.218:6312">128.199.116.218:6312</a>) was formed. Members joined: 13071578 left: 1760315215</div><div>Jan 22 10:15:17 node2 corosync[32761]:  [TOTEM ] A new membership (<a href="http://104.236.71.79:6324">104.236.71.79:6324</a>) was formed. Members joined: 1760315215</div><div>Jan 22 10:15:19 node2 crmd[311]:   notice: peer_update_callback: Our peer on the DC is dead</div><div>Jan 22 10:15:19 node2 crmd[311]:   notice: do_state_transition: State transition S_NOT_DC -&gt; S_ELECTION [ input=I_ELECTION cause=C_CRMD_STATUS_CALLBACK origin=peer_update_callback ]</div><div>Jan 22 10:15:20 node2 kernel: [690741.179442] block drbd0: peer( Primary -&gt; Secondary )</div><div>Jan 22 10:15:20 node2 corosync[32761]:  [QUORUM] Members[3]: 1760315215 13071578 1017525950</div><div>Jan 22 10:15:20 node2 corosync[32761]:  [MAIN  ] Completed service synchronization, ready to provide service.</div></div><div><br></div></div>