<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 12pt;
font-family:Calibri
}
--></style></head>
<body class='hmmessage'><div dir='ltr'> <br><div><pre>&gt; &gt; &gt; &gt; &gt; &gt; }<br>&gt; &gt; &gt; &gt; &gt; &gt; handlers {<br>&gt; &gt; &gt; &gt; &gt; &gt; fence-peer "/usr/lib/drbd/rhcs_fence";<br>&gt; &gt; &gt; &gt; &gt; &gt; }<br>&gt; &gt; &gt; &gt; &gt; &gt; }<br>&gt; &gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; &gt; rhcs_fence is wrong fence-peer utility. You should use<br>&gt; &gt; &gt; &gt; &gt; /usr/lib/drbd/crm-fence-peer.sh and<br>&gt; &gt; &gt; &gt; &gt; /usr/lib/drbd/crm-unfence-peer.sh instead.<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; But my understanging (probably wrong) was that the fence-peer handler is<br>&gt; &gt; &gt; &gt; meant to be called for STONITH, not for "usual" promotions/demotions<br>&gt; &gt; &gt; &gt; to/from Primary/Secondary.<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; &gt; If I use the aforementioned pair of handlers (crm-*.sh) for<br>&gt; &gt; &gt; &gt; fence/unfence, do I still get STONITH behavior for "split brain cases"?<br>&gt; &gt; &gt; &gt;<br>&gt; &gt; &gt; <br>&gt; &gt; &gt; Correct. The 'rhcs_fence' handler passes fence calls on to cman, which <br>&gt; &gt; &gt; you have set to redirect on to pacemaker. This isn't what it was <br>&gt; &gt; &gt; designed for, and hasn't been tested. It was meant to be an updated <br>&gt; &gt; &gt; replacement for obliterate-peer.sh in cman+rgmanager clusters directly <br>&gt; &gt; &gt; (no pacemaker).<br>&gt; &gt; <br>&gt; &gt; Well, since it is a CMAN cluster after all and rhcs_fence relies only (besides /proc/drbd) on cman_tool and fence_node (which should be correctly working), I thought it would be the correct fence script choice, but I will obviously accept your suggestion and use the crm-* scripts instead.<br>&gt; &gt; <br>&gt; &gt; Anyway, I'm afraid that the real problem lurks elsewhere, since, as I stated before, a simple master/slave promotion/demotion should not lead to fencing, I suppose.<br>&gt; &gt; <br>&gt; &gt; As suggested by Nikita Staroverov , I pasted relevant (I hope) excerpts from logs on first node (the one surviving the stonith) at the time of one "stonith fest" :) just after committing a CIB update with new resources.<br>&gt; &gt; <br>&gt; &gt; <a href="http://pastebin.com/0eQqsftb" target="_blank">http://pastebin.com/0eQqsftb</a><br>&gt; &gt; <br>&gt; &gt; I can recall that seconds before being shot, the second node "lost contact" with cluster (I was issuing "pcs status" and "crm_mon -Arf1" from an SSH session and suddenly it went "cluster not connected" or something like that).<br>&gt; <br>&gt; Yep, thats consistent with:<br>&gt;  <br>&gt; Jul  2 21:32:38 cluster1 pengine[16342]:  warning: pe_fence_node: Node cluster2.verolengo.privatelan will be fenced because the node is no longer part of the cluster<br>&gt; <br>&gt; &gt; <br>&gt; &gt; Maybe (apart from the aforementioned improper use of rhcs_fence) there are issues with some timeout settings on cluster/DRBD operations and almost certainly the nodes have problems with their clock (still finding a reasonable/reachable NTP source), but I do not know if these can be relevant issues.<br>&gt; <br>&gt; Or, its _because_ of the improper use of rhcs_fence... depending on how it works it could be telling corosync/cman on cluster2 to disappear.<br><br>I can confirm that changing handler scripts to the suggested crm-*.sh has resolved all the problems.<br><br>I still think that at least this page:<br><br><a href="http://www.drbd.org/users-guide-8.4/s-fence-peer.html#idp68019024" target="_blank">http://www.drbd.org/users-guide-8.4/s-fence-peer.html#idp68019024</a><br><br>clearly states that no fence-peer handler should be invoked under regular operations, but this is more of a documentation (and drbd-users list) affair.<br><br>Many thanks again to you all for the assistance!<br><br>Regards,<br>Giuseppe<br></pre></div>                                               </div></body>
</html>