<div dir="ltr">Thanks Andrew.<br><br>I upgraded corosync and pacemaker and the cluster works fine now.<br></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Jan 8, 2015 at 8:26 AM, Andrew Beekhof <span dir="ltr">&lt;<a href="mailto:andrew@beekhof.net" target="_blank">andrew@beekhof.net</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class=""><br>
&gt; On 15 Dec 2014, at 4:29 pm, Bharathiraja P &lt;<a href="mailto:raja@where2getit.com">raja@where2getit.com</a>&gt; wrote:<br>
&gt;<br>
&gt; Hi Andrew,<br>
&gt;<br>
&gt; Frequently one node gets disconnected from CIB and stops the cluster resources. I&#39;m not able to start or cleanup failed actions for any of the resources. For ex, if nodeA gets disconnected from CIB, I won&#39;t be able to run actions on a resource like cleanup/stop/restart,... as that hangs forever.<br>
&gt;<br>
&gt; In corosync log I will see a message like this &quot; cib:    debug: qb_ipcs_disconnect:       qb_ipcs_disconnect(3760-5529-<br>
&gt; 13) state:2&quot;<br>
&gt;<br>
&gt; All I had to do is to force kill the cib process on both nodes multiple times.<br>
&gt;<br>
&gt; Let me know if you need any other info to nail down this issue.<br>
<br>
</span>For starters, we&#39;d need to know what process 5529 was and what the rest of the processes in the cluster were doing.<br>
Its impossible to say anything from so few non-error logs.<br>
<div class="HOEnZb"><div class="h5"><br>
&gt;<br>
&gt; --<br>
&gt; Bharathiraja<br>
&gt;<br>
&gt; On Mon, Dec 15, 2014 at 9:19 AM, Andrew Beekhof &lt;<a href="mailto:andrew@beekhof.net">andrew@beekhof.net</a>&gt; wrote:<br>
&gt;<br>
&gt; &gt; On 12 Dec 2014, at 9:57 pm, Bharathiraja P &lt;<a href="mailto:raja@where2getit.com">raja@where2getit.com</a>&gt; wrote:<br>
&gt; &gt;<br>
&gt; &gt; Hi,<br>
&gt; &gt;<br>
&gt; &gt; We run pacemaker+corosync cluster on OpenSuSE 13.1 QEMU guests.<br>
&gt; &gt;<br>
&gt; &gt; Frequently, one node gets disconnected from cib. This is the message seen in corosync logs,<br>
&gt; &gt;<br>
&gt; &gt; Nov 25 08:36:07 [3760] sysmon-secondary        cib:    debug: qb_ipcs_dispatch_connection_request:      HUP conn (3760-5529-13)<br>
&gt; &gt; Nov 25 08:36:07 [3760] sysmon-secondary        cib:    debug: qb_ipcs_disconnect:       qb_ipcs_disconnect(3760-5529-13) state:2<br>
&gt; &gt; Nov 25 08:36:07 [3760] sysmon-secondary        cib:     info: crm_client_destroy:       Destroying 0 events<br>
&gt; &gt; Nov 25 08:36:07 [3760] sysmon-secondary        cib:    debug: qb_rb_close:      Free&#39;ing ringbuffer: /dev/shm/qb-cib_ro-response-3760-5529-13-header<br>
&gt; &gt; Nov 25 08:36:07 [3760] sysmon-secondary        cib:    debug: qb_rb_close:      Free&#39;ing ringbuffer: /dev/shm/qb-cib_ro-event-3760-5529-13-header<br>
&gt; &gt; Nov 25 08:36:07 [3760] sysmon-secondary        cib:    debug: qb_rb_close:      Free&#39;ing ringbuffer: /dev/shm/qb-cib_ro-request-3760-5529-13-header<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; Can you pls help fix the issue?<br>
&gt;<br>
&gt; What issue?<br>
&gt;<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>
&gt; <a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
&gt;<br>
&gt; Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
&gt; Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br>
&gt;<br>
<br>
</div></div></blockquote></div><br></div>