I&#39;m running 1.0.8. In accordance with the bug in the post you linked, I changed the config so that interval is greater than dampen. Here is the relevant section now:<div><br></div><div><div><font face="&#39;courier new&#39;, monospace">      &lt;clone id=&quot;connectivity_resource&quot;&gt;</font></div>

<div><font face="&#39;courier new&#39;, monospace">        &lt;primitive class=&quot;ocf&quot; id=&quot;ping&quot; provider=&quot;pacemaker&quot; type=&quot;ping&quot;&gt;</font></div><div><font face="&#39;courier new&#39;, monospace">          &lt;instance_attributes id=&quot;ping-attrs&quot;&gt;</font></div>

<div><font face="&#39;courier new&#39;, monospace">            &lt;nvpair id=&quot;pingd-dampen&quot; name=&quot;dampen&quot; value=&quot;5s&quot;/&gt;</font></div><div><font face="&#39;courier new&#39;, monospace">            &lt;nvpair id=&quot;pingd-multiplier&quot; name=&quot;multiplier&quot; value=&quot;100&quot;/&gt;</font></div>

<div><font face="&#39;courier new&#39;, monospace">            &lt;nvpair id=&quot;pingd-hosts&quot; name=&quot;host_list&quot; value=&quot;10.54.130.6 10.54.130.8 10.54.130.7 50.97.196.101 50.97.196.103 50.97.196.102&quot;/&gt;</font></div>

<div><font face="&#39;courier new&#39;, monospace">          &lt;/instance_attributes&gt;</font></div><div><font face="&#39;courier new&#39;, monospace">          &lt;operations&gt;</font></div><div><font face="&#39;courier new&#39;, monospace">            &lt;op id=&quot;ping-monitor-10s&quot; interval=&quot;10s&quot; name=&quot;monitor&quot; timeout=&quot;60s&quot;/&gt;</font></div>

<div><font face="&#39;courier new&#39;, monospace">          &lt;/operations&gt;</font></div><div><font face="&#39;courier new&#39;, monospace">        &lt;/primitive&gt;</font></div><div><font face="&#39;courier new&#39;, monospace">        &lt;meta_attributes id=&quot;connectivity_resource-meta_attributes&quot;&gt;</font></div>

<div><font face="&#39;courier new&#39;, monospace">          &lt;nvpair id=&quot;connectivity_resource-meta_attributes-target-role&quot; name=&quot;target-role&quot; value=&quot;Started&quot;/&gt;</font></div><div><font face="&#39;courier new&#39;, monospace">        &lt;/meta_attributes&gt;</font></div>

<div><font face="&#39;courier new&#39;, monospace">      &lt;/clone&gt;</font></div><div><br></div><div>The scores are still not what I expect however, and when I disable the internal interface on a node, nothing happens with failover.</div>

<div><br></div><div>Also, I&#39;ve noticed this in my syslog:</div><div><br></div><div><div>Feb 17 06:26:11 anlutest2 lrmd: [1137]: WARN: ping:1:monitor process (PID 9380) timed out (try 1).  Killing with signal SIGTERM (15).</div>

<div>Feb 17 06:26:11 anlutest2 lrmd: [1137]: info: RA output: (ping:1:monitor:stderr) Terminated</div><div>Feb 17 06:26:11 anlutest2 ping[9380]: [15745]: INFO: They use TERM to bring us down. No such luck.</div><div>Feb 17 06:26:11 anlutest2 ping[9380]: [15747]: ERROR: Unexpected result for &#39;ping -n -q -W 3 -c 5  50.97.196.103&#39; 143: </div>

<div><br></div><div>So it looks like the ping command is failing for some reason, but when I run it manually, it succeeds...</div><div><br></div><div>Really at a loss here, any help is appreciated!</div><div><br></div><div>

Anlu</div><br><div class="gmail_quote">On Fri, Feb 17, 2012 at 3:26 AM, Dejan Muhamedagic <span dir="ltr">&lt;<a href="mailto:dejanmm@fastmail.fm">dejanmm@fastmail.fm</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Hi,<br>
<div class="im"><br>
On Thu, Feb 16, 2012 at 07:57:14PM -0800, Anlu Wang wrote:<br>
&gt; I have three machines named anlutest1, anlutest2, and anlutest3 that I&#39;m<br>
&gt; trying to get IP failover working on. I&#39;m using heartbeat for the messaging<br>
&gt; layer, and everything works great when a machine goes down. But I also<br>
&gt; would like to failover an IP when EITHER the eth0 or eth1 network<br>
&gt; interfaces fail. From reading<br>
&gt;<br>
&gt; <a href="http://www.clusterlabs.org/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/ch09s03s03.html" target="_blank">http://www.clusterlabs.org/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/ch09s03s03.html</a><br>


&gt;<br>
&gt; it seems the right way to do this is to add a ping resource.<br>
&gt;<br>
&gt; Here is my XML configuration:<br>
&gt;<br>
&gt; <a href="http://pastebin.com/05z7eB2s" target="_blank">http://pastebin.com/05z7eB2s</a><br>
<br>
</div>The configuration seems OK, though obviously monitors are<br>
scheduled back-to-back (the postponed operations messages below).<br>
I guess that you should increase the intervals or reduce the<br>
dampen period. Which version of Pacemaker do you run? Perhaps<br>
also take a look at this thread:<br>
<br>
<a href="http://oss.clusterlabs.org/pipermail/pacemaker/2011-April/009942.html" target="_blank">http://oss.clusterlabs.org/pipermail/pacemaker/2011-April/009942.html</a><br>
<br>
Thanks,<br>
<br>
Dejan<br>
<div><div class="h5"><br>
&gt; This config doesn&#39;t work for me. Using the showscores.sh script found at:<br>
&gt;<br>
&gt; <a href="http://www.mail-archive.com/pacemaker@oss.clusterlabs.org/msg00410.html" target="_blank">http://www.mail-archive.com/pacemaker@oss.clusterlabs.org/msg00410.html</a><br>
&gt;<br>
&gt; I see that my scores are:<br>
&gt;<br>
&gt; Resource                       Score     Node      Stickiness #Fail<br>
&gt;  Migration-Threshold<br>
&gt; address01                      0         anlutest3 0          0<br>
&gt;<br>
&gt; address01                      1006      anlutest1 0          5<br>
&gt;<br>
&gt; address01                      50        anlutest2 0          157<br>
&gt;<br>
&gt; address02                      0         anlutest3 0          0<br>
&gt;<br>
&gt; address02                      1050      anlutest2 0          2<br>
&gt;<br>
&gt; address02                      6         anlutest1 0          0<br>
&gt;<br>
&gt; address03                      1000      anlutest3 0          7<br>
&gt;<br>
&gt; address03                      50        anlutest2 0<br>
&gt;<br>
&gt; address03                      6         anlutest1 0          0<br>
&gt;<br>
&gt; ping:0                         0         anlutest1 0          6<br>
&gt;<br>
&gt; ping:0                         0         anlutest2 0          14<br>
&gt;<br>
&gt; ping:0                         0         anlutest3 0          0<br>
&gt;<br>
&gt; ping:1                         0         anlutest2 0<br>
&gt;<br>
&gt; ping:1                         0         anlutest3 0          28<br>
&gt;<br>
&gt; ping:1                         -1000000  anlutest1 0          0<br>
&gt;<br>
&gt; ping:2                         0         anlutest3 0          13<br>
&gt;<br>
&gt; ping:2                         -1000000  anlutest1 0          0<br>
&gt;<br>
&gt; ping:2                         -1000000  anlutest2 0<br>
&gt;<br>
&gt; which make no sense at all. I don&#39;t see how I could be getting these scores<br>
&gt; of 50 and 1006. When I take down an interface on anlutest3, I see scores of<br>
&gt; 4 and 1004, which sort of make sense, just the multiplier of 100 isn&#39;t<br>
&gt; working. I was experimenting with changing values, so maybe its caching old<br>
&gt; values. If so, how do I enforce the new values?<br>
&gt;<br>
&gt; Furthermore, shouldn&#39;t there be no scores of 0? If all 6 IPs I am pinging<br>
&gt; return successfully, shouldn&#39;t my scores be either 600 or 1600?<br>
&gt;<br>
&gt; In my syslog I also see a ton of messages like<br>
&gt;<br>
&gt; Feb 17 03:54:47 anlutest2 lrmd: [1137]: info: perform_op:2877: operations<br>
&gt; on resource address01 already delayed<br>
&gt; Feb 17 03:54:48 anlutest2 lrmd: [1137]: info: perform_op:2873: operation<br>
&gt; monitor[419] on ocf::ping::ping:1 for client 1140, its parameters:<br>
&gt; CRM_meta_clone=[1] host_list=[10.54.130.6 10.54.130.8 10.54.130.7<br>
&gt; 50.97.196.101 50.97.196.103 50.9CRM_meta_clone_max=[3] dampen=[60s]<br>
&gt; crm_feature_set=[3.0.1] CRM_meta_globally_unique=[false] multiplier=[10000]<br>
&gt; CRM_meta_name=[monitor] CRM_meta_timeout=[60000] CRM_meta_interval=[5000]<br>
&gt;  for rsc is already running.<br>
&gt; Feb 17 03:54:48 anlutest2 lrmd: [1137]: info: perform_op:2883: postponing<br>
&gt; all ops on resource ping:1 by 1000 ms<br>
&gt; Feb 17 03:54:48 anlutest2 lrmd: [1137]: info: perform_op:2873: operation<br>
&gt; monitor[171] on ocf::ping::ping:2 for client 1140, its parameters:<br>
&gt; CRM_meta_clone=[2] host_list=[10.54.130.6 10.54.130.8 10.54.130.7<br>
&gt; 50.97.196.101 50.97.196.103 50.9CRM_meta_clone_max=[3] dampen=[60s]<br>
&gt; crm_feature_set=[3.0.1] CRM_meta_globally_unique=[false] multiplier=[1]<br>
&gt; CRM_meta_name=[monitor] CRM_meta_timeout=[30000] CRM_meta_interval=[5000]<br>
&gt;  for rsc is already running.<br>
&gt; Feb 17 03:54:48 anlutest2 lrmd: [1137]: info: perform_op:2883: postponing<br>
&gt; all ops on resource ping:2 by 1000 ms<br>
&gt;<br>
&gt; and occasionally<br>
&gt;<br>
&gt; Feb 17 03:54:33 anlutest2 attrd: [1139]: info: attrd_trigger_update:<br>
&gt; Sending flush op to all hosts for: pingd (4000)<br>
&gt; Feb 17 03:54:33 anlutest2 attrd: [1139]: info: attrd_ha_callback: flush<br>
&gt; message from anlutest2<br>
&gt; Feb 17 03:54:33 anlutest2 attrd: [1139]: WARN: find_nvpair_attr: Multiple<br>
&gt; attributes match name=pingd<br>
&gt; Feb 17 03:54:33 anlutest2 attrd: [1139]: info: find_nvpair_attr:   Value:<br>
&gt; 50 #011(id=status-d619a94e-ebba-4ed0-8e0f-89837dd7506b-pingd)<br>
&gt; Feb 17 03:54:33 anlutest2 attrd: [1139]: info: find_nvpair_attr:   Value: 3<br>
&gt; #011(id=status-ab3c1a25-9471-48f7-9c0b-c76238abd402-pingd)<br>
&gt; Feb 17 03:54:33 anlutest2 attrd: [1139]: info: attrd_perform_update: Sent<br>
&gt; update -40: pingd=4000<br>
&gt; Feb 17 03:54:33 anlutest2 attrd: [1139]: ERROR: attrd_cib_callback: Update<br>
&gt; -40 for pingd=4000 failed: Required data for this CIB API call not found<br>
&gt;<br>
&gt; Could someone just take a look at my config and let me know what I&#39;m doing<br>
&gt; wrong? Or if there&#39;s a better way to do what I want to do...<br>
&gt;<br>
&gt; Thanks in advance,<br>
&gt; Anlu<br>
<br>
</div></div>&gt; _______________________________________________<br>
&gt; Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>
&gt; <a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
&gt;<br>
&gt; Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
&gt; Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br>
<br>
<br>
_______________________________________________<br>
Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>
<a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br>
</blockquote></div><br></div></div>