<br><div class="gmail_quote">Hi,<div class="im"><br>
<br>
On Mon, Jul 02, 2012 at 05:49:38PM +0530, sachin garg wrote:<br>
&gt; Hi,<br>
&gt;<br>
&gt; I am using IPMI plugin for configuring STONITH with heartbeat cluster.<br>
&gt; If a resource fails on one node then the other node STONITHs that node. But<br>
&gt; when the failed node comes back after the reboot, the STONITH device itself<br>
&gt; fails on the node which has started again. Logs indicate that IPMI start<br>
&gt; operation returned 1 (i.e. unknown error).<br>
<br></div>&gt;&gt; Isn&#39;t there more in the logs, i.e. a specific reason?<br>No just a one liner is present in traces. I went through IPMI script to understand that in what scenario it may return 1. There is juts one flow (see below), which indicates that execution of IPMI tool fails at start. But this doesn&#39;t happen  If I start heartbeat manually and only happens upon reboot (I have a strict requirement to start heartbeat stack upon restart)<br>


<br># Yet another convenience wrapper that invokes run_ipmitool, captures<br># its output, logs the output, returns either 0 (on success) or 1 (on<br># any error)<br>do_ipmi() {<br>    if outp=`run_ipmitool $*`; then<br>

        ha_log.sh debug &quot;ipmitool output: `echo $outp`&quot;<br>
        return 0<br>    else<br>        ha_log.sh err &quot;error executing ipmitool: `echo $outp`&quot;<br>        return 1<br>    fi<div class="im"><br>}<br><br>
<br>
&gt; I suspect that this may be due<br>
&gt; to some initialization delays at network level. But I am not sure about<br>
&gt; this. What could be the best way to overcome this issue? I consider adding<br>
&gt; a start delay to stonith device but can&#39;t say if that is the right<br>
&gt; approach.<br>
<br></div>&gt;&gt;Happens only once after boot? Afterwards works fine? Strange.<br>&gt;&gt;Well, it&#39;s arguably good practice not to start the cluster stack<br>&gt;&gt;automatically on boot.<br>I have a strict requirement to start heartbeat stack upon restart. Will adding a start delay help; although I have reasons to believe that it doesn&#39;t help.<div class="im">

<br>

<br>
&gt; Moreover, how should one configure start/monitor operation failure for a<br>
&gt; STONITH device? I have currently configured pacemaker to fence the node if<br>
&gt; start/monitor operation fails for STONITH device. Is this the right<br>
&gt; configuration?<br>
<br></div>
&gt;&gt; No. Nothing special needs to be configured.<br>Let me rephrase my question: All my resources have been configured for fencing upon monitor failure. So, should I configure fencing or restart for STONITH device. Since fencing action is taken out by STONITH device itself, thats why this question. Moreover, If I configure &quot;fence&quot; for stonith device start failure, I get one extra reboot but eventually the system recovers and there are no more failures.<div class="im">

<br>

<br>
&gt; And what should be the monitoring frequency for STONITH device?<br></div>
&gt;&gt;Take a look here <a href="http://clusterlabs.org/doc/crm_fencing.html" target="_blank">http://clusterlabs.org/doc/crm_fencing.html</a><br>Thanks for directing to the article. The article says that monitoring must happen only 2-3 times per hour. But if I have got a SRS with the customer which says that any required failover must happen in 30 seconds. So, in an extreme scenario when fencing device itself fails, I won&#39;t be able to fulfill the terms of SRS. Please advice.<br>



<br>
Thanks,<br>
<br>
Dejan<br>
<br>
&gt; Regards<div class="HOEnZb"><div class="h5"><br>
<br><br><div class="gmail_quote">On Mon, Jul 2, 2012 at 5:15 PM, sachin garg <span dir="ltr">&lt;<a href="mailto:sachingarg2k1@gmail.com" target="_blank">sachingarg2k1@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


Hi,<br><br>I am using IPMI plugin for configuring STONITH with heartbeat cluster.<br>If a resource fails on one node then the other node STONITHs that node. But when the failed node comes back after the reboot, the STONITH device itself fails on the node which has started again. Logs indicate that IPMI start operation returned 1 (i.e. unknown error). I suspect that this may be due to some initialization delays at network level. But I am not sure about this. What could be the best way to overcome this issue? I consider adding a start delay to stonith device but can&#39;t say if that is the right approach. <br>



<br>Moreover, how should one configure start/monitor operation failure for a STONITH device? I have currently configured pacemaker to fence the node if start/monitor operation fails for STONITH device. Is this the right configuration? <br>



<br>And what should be the monitoring frequency for STONITH device?<br><br clear="all">Regards<br>
</blockquote></div><br>
</div></div></div><br>