<br><br><div class="gmail_quote">On Sun, Oct 2, 2011 at 12:31 AM, Gerald Vogt <span dir="ltr">&lt;<a href="mailto:vogt@spamcop.net">vogt@spamcop.net</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<div class="im">On 02.10.11 03:18, Serge Dubrouski wrote:<br>
&gt;     1. You expect rndc and host to be in $PATH. At the same time the path to<br>
&gt;     named can be configured. I think consequently, the same should apply to<br>
&gt;     rndc and host as they are bind utils.<br>
&gt;<br>
&gt;     On our CentOS servers we run the latest version of bind, compiled from<br>
&gt;     source and installed in a custom path which is added in /etc/profile.<br>
&gt;     For some reason /etc/profile doesn&#39;t seem to apply to the ocf scripts<br>
&gt;     thus the script doesn&#39;t find rndc or host unless I extend PATH manually<br>
&gt;     at the beginning of the script.<br>
&gt;<br>
&gt;<br>
&gt; We had some discussion around this and finally decided  to leave it up<br>
&gt; to sysadmin ti make sure that both tools are available in PATH. One<br>
&gt; can always create a couple of symlink to cover it.<br>
<br>
</div>But isn&#39;t it inconsequent that you can set the named path as a parameter<br>
but not rndc or host. named, rndc, and host all come out of a bind<br>
installation and they all run on the same host...<br>
<div class="im"><br>
&gt;     2. In the stop function you call &quot;rndc stop&quot; to stop the daemon.<br>
&gt;     However, if the daemon hangs, rndc will hang. Thus pacemaker runs into a<br>
&gt;     timeout and kills the ocf script, leading to a failed stop.<br>
&gt;<br>
&gt;<br>
&gt; You didn&#39;t read the code carefully again. Yes it does exactly what you<br>
&gt; want or at least it&#39;s supposed to:<br>
&gt;<br>
&gt;     if ! $RNDC stop &gt;/dev/null; then<br>
<br>
</div>The problem is your script never gets beyond this line. rndc tries to<br>
contact named which is hanging. I don&#39;t know what time out rndc has<br>
exactly but at least on our CentOS installation it doesn&#39;t time out<br>
within 60s.<br>
<br>
60s is currently the timeout we have set in the &quot;primitive&quot; declaration.<br>
Thus after 60s pacemaker assumes your script is hanging and kills your<br>
script with TERM.<br>
<br>
As I wrote before: you should be able to test this easily by sending a<br>
STOP signal to the named process. At least in this situation I see that<br>
the &quot;rndc stop&quot; doesn&#39;t return before those 60s.<br></blockquote><div><br>Indeed you are right. Thanks for catching. Attached is the patch that fixes this issue. It also makes rndc and host commands configurable.<br>
<br>Please take a look at the patch and if it&#39;s all right I&#39;ll ask pacemaker team to push it into git.<br><br>Thanks again.  <br> <br></div><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

<div class="im"><br>
&gt;         kill `cat ${OCF_RESKEY_named_pidfile}`<br>
&gt;     fi<br>
&gt;<br>
&gt;     if [ -n &quot;$OCF_RESKEY_CRM_meta_timeout&quot; ]; then<br>
&gt;       # Allow 2/3 of the action timeout for the orderly shutdown<br>
&gt;       # (The origin unit is ms, hence the conversion)<br>
&gt;       timeout=$((OCF_RESKEY_CRM_meta_timeout/1500))<br>
&gt;     else<br>
&gt;       timeout=20<br>
&gt;     fi<br>
&gt;<br>
&gt;     while named_status ; do<br>
&gt;         if [ $timeout -ge ${OCF_RESKEY_named_stop_timeout} ]; then<br>
&gt;             break<br>
&gt;         else<br>
&gt;             sleep 1<br>
&gt;             timeout=$((timeout++))<br>
&gt;         fi<br>
&gt;     done<br>
&gt;<br>
</div>&gt;     *#If still up*<br>
&gt; *    if named_status 2&gt;&amp;1; then*<br>
&gt; *        ocf_log err &quot;named is still up! Killing&quot;;*<br>
&gt; *        kill -9 `cat ${OCF_RESKEY_named_pidfile}`*<br>
&gt; *    fi*<br>
<div class="im">&gt;<br>
&gt;<br>
&gt;     I think the ocf script should have its own timeout and abort the rndc<br>
&gt;     call if it takes too long and then try to kill the server.<br>
&gt;<br>
&gt;<br>
&gt; See above.<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;     To test send a STOP signal to named and wait...<br>
<br>
</div><div><div></div><div class="h5">Gerald<br>
<br>
_______________________________________________<br>
Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>
<a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker" target="_blank">http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker</a><br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>Serge Dubrouski.<br>