<div dir="ltr"><span style="font-size:13px">Honza,</span><div><span style="font-size:13px"><br></span></div><div>Thank you for helping me.</div><div>So, there is no defined behavior in case one of the interfaces is not in the system?</div><div><br></div></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature"><div dir="ltr">Thank you,<div>Kostya</div></div></div></div>
<br><div class="gmail_quote">On Tue, Jan 13, 2015 at 12:01 PM, Jan Friesse <span dir="ltr">&lt;<a href="mailto:jfriesse@redhat.com" target="_blank">jfriesse@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Kostiantyn,<br>
<div><div class="h5"><br>
<br>
&gt; According to the <a href="https://access.redhat.com/solutions/638843" target="_blank">https://access.redhat.com/solutions/638843</a> , the<br>
&gt; interface, that is defined in the corosync.conf, must be present in the<br>
&gt; system (see at the bottom of the article, section &quot;ROOT CAUSE&quot;).<br>
&gt; To confirm that I made a couple of tests.<br>
&gt;<br>
&gt; Here is a part of the corosync.conf file (in a free-write form) (also<br>
&gt; attached the origin config file):<br>
&gt; ===============================<br>
&gt; rrp_mode: passive<br>
&gt; ring0_addr is defined in corosync.conf<br>
&gt; ring1_addr is defined in corosync.conf<br>
&gt; ===============================<br>
&gt;<br>
&gt; -------------------------------<br>
&gt;<br>
&gt; Two-node cluster<br>
&gt;<br>
&gt; -------------------------------<br>
&gt;<br>
&gt; Test #1:<br>
&gt; --------------------------------------------------<br>
&gt; IP for ring0 is not defines in the system:<br>
&gt; --------------------------------------------------<br>
&gt; Start Corosync simultaneously on both nodes.<br>
&gt; Corosync fails to start.<br>
&gt; From the logs:<br>
&gt; Jan 08 09:43:56 [2992] A6-402-2 corosync error [MAIN ] parse error in<br>
&gt; config: No interfaces defined<br>
&gt; Jan 08 09:43:56 [2992] A6-402-2 corosync error [MAIN ] Corosync Cluster<br>
&gt; Engine exiting with status 8 at main.c:1343.<br>
&gt; Result: Corosync and Pacemaker are not running.<br>
&gt;<br>
&gt; Test #2:<br>
&gt; --------------------------------------------------<br>
&gt; IP for ring1 is not defines in the system:<br>
&gt; --------------------------------------------------<br>
&gt; Start Corosync simultaneously on both nodes.<br>
&gt; Corosync starts.<br>
&gt; Start Pacemaker simultaneously on both nodes.<br>
&gt; Pacemaker fails to start.<br>
&gt; From the logs, the last writes from the &quot;corosync&quot;:<br>
&gt; Jan 8 16:31:29 daemon.err&lt;27&gt; corosync[3728]: [TOTEM ] Marking ringid 0<br>
&gt; interface 169.254.1.3 FAULTY<br>
&gt; Jan 8 16:31:30 daemon.notice&lt;29&gt; corosync[3728]: [TOTEM ] Automatically<br>
&gt; recovered ring 0<br>
&gt; Result: Corosync and Pacemaker are not running.<br>
&gt;<br>
&gt;<br>
&gt; Test #3:<br>
&gt;<br>
&gt; &quot;rrp_mode: active&quot; leads to the same result, except Corosync and Pacemaker<br>
&gt; init scripts return status &quot;running&quot;.<br>
&gt; But still &quot;vim /var/log/cluster/corosync.log&quot; shows a lot of errors like:<br>
&gt; Jan 08 16:30:47 [4067] A6-402-1 cib: error: pcmk_cpg_dispatch: Connection<br>
&gt; to the CPG API failed: Library error (2)<br>
&gt;<br>
&gt; Result: Corosync and Pacemaker show their statuses as &quot;running&quot;, but<br>
&gt; &quot;crm_mon&quot; cannot connect to the cluster database. And half of the<br>
&gt; Pacemaker&#39;s services are not running (including Cluster Information Base<br>
&gt; (CIB)).<br>
&gt;<br>
&gt;<br>
&gt; -------------------------------<br>
&gt;<br>
&gt; For a single node mode<br>
&gt;<br>
&gt; -------------------------------<br>
&gt;<br>
&gt; IP for ring0 is not defines in the system:<br>
&gt;<br>
&gt; Corosync fails to start.<br>
&gt;<br>
&gt; IP for ring1 is not defines in the system:<br>
&gt;<br>
&gt; Corosync and Pacemaker are started.<br>
&gt;<br>
&gt; It is possible that configuration will be applied successfully (50%),<br>
&gt;<br>
&gt; and it is possible that the cluster is not running any resources,<br>
&gt;<br>
&gt; and it is possible that the node cannot be put in a standby mode (shows:<br>
&gt; communication error),<br>
&gt;<br>
&gt; and it is possible that the cluster is running all resources, but applied<br>
&gt; configuration is not guaranteed to be fully loaded (some rules can be<br>
&gt; missed).<br>
&gt;<br>
&gt;<br>
&gt; -------------------------------<br>
&gt;<br>
&gt; Conclusions:<br>
&gt;<br>
&gt; -------------------------------<br>
&gt;<br>
&gt; It is possible that in some rare cases (see comments to the bug) the<br>
&gt; cluster will work, but in that case its working state is unstable and the<br>
&gt; cluster can stop working every moment.<br>
&gt;<br>
&gt;<br>
&gt; So, is it correct? Does my assumptions make any sense? I didn&#39;t any other<br>
&gt; explanation in the network ... .<br>
<br>
</div></div>Corosync needs all interfaces during start and runtime. This doesn&#39;t<br>
mean they must be connected (this would make corosync unusable for<br>
physical NIC/Switch or cable failure), but they must be up and have<br>
correct ip.<br>
<br>
When this is not the case, corosync rebinds to localhost and weird<br>
things happens. Removal of this rebinding is long time TODO, but there<br>
are still more important bugs (especially because rebind can be avoided).<br>
<br>
Regards,<br>
  Honza<br>
<span class=""><br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; Thank you,<br>
&gt; Kostya<br>
&gt;<br>
&gt; On Fri, Jan 9, 2015 at 11:10 AM, Kostiantyn Ponomarenko &lt;<br>
&gt; <a href="mailto:konstantin.ponomarenko@gmail.com">konstantin.ponomarenko@gmail.com</a>&gt; wrote:<br>
&gt;<br>
&gt;&gt; Hi guys,<br>
&gt;&gt;<br>
&gt;&gt; Corosync fails to start if there is no such network interface configured<br>
&gt;&gt; in the system.<br>
&gt;&gt; Even with &quot;rrp_mode: passive&quot; the problem is the same when at least one<br>
&gt;&gt; network interface is not configured in the system.<br>
&gt;&gt;<br>
&gt;&gt; Is this the expected behavior?<br>
&gt;&gt; I thought that when you use redundant rings, it is enough to have at least<br>
&gt;&gt; one NIC configured in the system. Am I wrong?<br>
&gt;&gt;<br>
&gt;&gt; Thank you,<br>
&gt;&gt; Kostya<br>
&gt;&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
</span>&gt; _______________________________________________<br>
&gt; Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>
&gt; <a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
&gt;<br>
&gt; Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
&gt; Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br>
&gt;<br>
<br>
<br>
_______________________________________________<br>
Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>
<a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br>
</blockquote></div><br></div>