<html><body><div style="color:#000; background-color:#fff; font-family:HelveticaNeue, Helvetica Neue, Helvetica, Arial, Lucida Grande, sans-serif;font-size:12pt">Greetings, <br style=""><br style="" class="">We are using pacemaker and cman in a two-node cluster with no-quorum-policy: ignore and stonith-enabled: false on a Centos 6 system (pacemaker related RPM versions are listed below).&nbsp; We are seeing some bizarre (to us) behavior when a node is fully lost (e.g. reboot -nf ).&nbsp; Here's the scenario we have:<br style="" class=""><br style="" class="">1) Fail a resource named "some-resource" started with the ocf:heartbeat:anything script (or others) on node01 (in our case, it's a master/slave resource we're pulling observations from, but it can happen on normal ones).<br style="" class="">2) Wait for Resource to recover.<br style="" class="">3) Fail node02 (reboot -nf, or power loss)<br style="" class="">4) When node02 recovers, we see in
 /var/log/messages:<br style="" class="">&nbsp; - Quorum is recovered<br style="" class="">&nbsp; - Sending flush op to all hosts for master-some-resource, last-failure-some-resource, probe_complete(true), fail-count-some-resource(1) <br style="" class="">&nbsp; - pengine Processing failed op monitor for some-resource on node01: unknown error (1)<br style="" class="">&nbsp;&nbsp; &nbsp;* After adding a simple "`date` called with $@ &gt;&gt; /tmp/log.rsc", we do not see the resource agent being called at this time, on either node.<br style="" class="">&nbsp;&nbsp; &nbsp;* Sometimes, we see other operations happen that are also not being sent to the RA, including stop/start<br style="" class="">&nbsp;&nbsp; &nbsp;* The resource is actually happilly running on node01 throughtout this whole process, so there's no reason we should be seeing this failure here. <br><span class="tab">&nbsp;&nbsp;&nbsp; * This issue is only seen on resources that had not yet been
 cleaned up.&nbsp; Resources that were 'clean' when both nodes were last online do not have this issue. </span><br style="" class=""><br style="" class="">We noticed this originally because we are using the ClusterMon RA to report on different types of errors, and this is giving us false positives. Any thoughts on configuration issues we could be having, or if this sounds like a bug in pacemaker somewhere? <br style="" class=""><br style="" class="">Thanks!<br style="" class=""><br style="" class="">----<br style="" class="">Versions:<br style="" class="">ccs-0.16.2-69.el6_5.1.x86_64<br style="" class="">clusterlib-3.0.12.1-59.el6_5.2.x86_64<br style="" class="">cman-3.0.12.1-59.el6_5.2.x86_64<br style="" class="">corosync-1.4.1-17.el6_5.1.x86_64<br style="" class="">corosynclib-1.4.1-17.el6_5.1.x86_64<br style="" class="">fence-virt-0.2.3-15.el6.x86_64<br style="" class="">libqb-0.16.0-2.el6.x86_64<br style="" class="">modcluster-0.16.2-28.el6.x86_64<br
 style="" class="">openais-1.1.1-7.el6.x86_64<br style="" class="">openaislib-1.1.1-7.el6.x86_64<br style="" class="">pacemaker-1.1.10-14.el6_5.3.x86_64<br style="" class="">pacemaker-cli-1.1.10-14.el6_5.3.x86_64<br style="" class="">pacemaker-cluster-libs-1.1.10-14.el6_5.3.x86_64<br style="" class="">pacemaker-libs-1.1.10-14.el6_5.3.x86_64<br style="" class="">pcs-0.9.90-2.el6.centos.3.noarch<br style="" class="">resource-agents-3.9.2-40.el6_5.7.x86_64<br style="" class="">ricci-0.16.2-69.el6_5.1.x86_64<br style="" class=""><br style="" class=""></div></body></html>