<div dir="ltr"><br></div><div class="gmail_extra"><br><br><div class="gmail_quote">2013/2/11 Dan Frincu <span dir="ltr">&lt;<a href="mailto:df.cluster@gmail.com" target="_blank">df.cluster@gmail.com</a>&gt;</span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi,<br>
<div><div class="h5"><br>
On Sun, Feb 10, 2013 at 2:24 PM, Viacheslav Biriukov<br>
&lt;<a href="mailto:v.v.biriukov@gmail.com">v.v.biriukov@gmail.com</a>&gt; wrote:<br>
&gt; Hi guys,<br>
&gt;<br>
&gt; Got a tricky issue with Corosync and Pacemaker over DHCP IP address using<br>
&gt; unicast. Corosync craches periodically.<br>
&gt;<br>
&gt; Packages are from centos 6 repos:<br>
&gt; corosync-1.4.1-7.el6_3.1.x86_64<br>
&gt; corosynclib-1.4.1-7.el6_3.1.x86_64<br>
&gt; pacemaker-cluster-libs-1.1.7-6.el6.x86_64<br>
&gt; pacemaker-libs-1.1.7-6.el6.x86_64<br>
&gt; pacemaker-cli-1.1.7-6.el6.x86_64<br>
&gt; pacemaker-1.1.7-6.el6.x86_64<br>
&gt;<br>
&gt;<br>
&gt; Logs<br>
&gt;<br>
&gt; Feb 09 23:24:33 host1 lrmd: [5248]: info: rsc:P_SESSION_IP:25: monitor<br>
&gt; Feb 10 00:24:39 host1 lrmd: [5248]: info: rsc:P_SESSION_IP:25: monitor<br>
&gt; Feb 10 01:24:44 host1 lrmd: [5248]: info: rsc:P_SESSION_IP:25: monitor<br>
&gt; Feb 10 02:24:48 host1 lrmd: [5248]: info: rsc:P_SESSION_IP:25: monitor<br>
&gt; Feb 10 03:24:51 host1 lrmd: [5248]: info: rsc:P_SESSION_IP:25: monitor<br>
&gt; Feb 10 04:24:52 host1 lrmd: [5248]: info: rsc:P_SESSION_IP:25: monitor<br>
&gt; Feb 10 05:24:54 host1 lrmd: [5248]: info: rsc:P_SESSION_IP:25: monitor<br>
&gt; Feb 10 06:25:00 host1 lrmd: [5248]: info: rsc:P_SESSION_IP:25: monitor<br>
&gt; Feb 10 07:25:06 host1 lrmd: [5248]: info: rsc:P_SESSION_IP:25: monitor<br>
&gt; Feb 10 07:56:22 corosync [TOTEM ] A processor failed, forming new<br>
&gt; configuration.<br>
&gt; Feb 10 07:56:22 corosync [TOTEM ] The network interface is down.<br>
<br>
</div></div>This ^^^ is your problem. Corosync doesn&#39;t like it, see<br>
<a href="https://github.com/corosync/corosync/wiki/Corosync-and-ifdown-on-active-network-interface" target="_blank">https://github.com/corosync/corosync/wiki/Corosync-and-ifdown-on-active-network-interface</a><br>
<br>
Normally DHCP shouldn&#39;t take the interface down. Also, since changing<br>
the network configuration in corosync means restarting it, why not go<br>
with static IP&#39;s?<br>
<br>
HTH,<br>
Dan<br>
<div><div class="h5"><br>
&gt; Feb 10 07:56:24 corosync [TOTEM ] The network interface [172.17.0.104] is<br>
&gt; now up.<br>
&gt; Feb 10 07:56:25 [5242] host1 pacemakerd:    error: cfg_connection_destroy:<br>
&gt; Connection destroyed<br>
&gt; Feb 10 07:56:25 [5251] host1       crmd:    error: ais_dispatch:<br>
&gt; Receiving message body failed: (2) Library error: Resource temporarily<br>
&gt; unavailable (11)<br>
&gt; Feb 10 07:56:25 [5246] host1        cib:    error: ais_dispatch:<br>
&gt; Receiving message body failed: (2) Library error: Resource temporarily<br>
&gt; unavailable (11)<br>
&gt; Feb 10 07:56:25 [5249] host1      attrd:    error: ais_dispatch:<br>
&gt; Receiving message body failed: (2) Library error: Resource temporarily<br>
&gt; unavailable (11)<br>
&gt; Feb 10 07:56:25 [5251] host1       crmd:    error: ais_dispatch:       AIS<br>
&gt; connection failed<br>
&gt; Feb 10 07:56:25 [5242] host1 pacemakerd:    error: cpg_connection_destroy:<br>
&gt; Connection destroyed<br>
&gt; Feb 10 07:56:25 [5246] host1        cib:    error: ais_dispatch:       AIS<br>
&gt; connection failed<br>
&gt; Feb 10 07:56:25 [5251] host1       crmd:     info: crmd_ais_destroy:<br>
&gt; connection closed<br>
&gt; Feb 10 07:56:25 [5249] host1      attrd:    error: ais_dispatch:       AIS<br>
&gt; connection failed<br>
&gt; Feb 10 07:56:25 [5247] host1 stonith-ng:    error: ais_dispatch:<br>
&gt; Receiving message body failed: (2) Library error: Resource temporarily<br>
&gt; unavailable (11)<br>
&gt; Feb 10 07:56:25 [5246] host1        cib:    error: cib_ais_destroy:    AIS<br>
&gt; connection terminated<br>
&gt; Feb 10 07:56:25 [5249] host1      attrd:     crit: attrd_ais_destroy:  Lost<br>
&gt; connection to OpenAIS service!<br>
&gt; Feb 10 07:56:25 [5242] host1 pacemakerd:   notice: pcmk_shutdown_worker:<br>
&gt; Shuting down Pacemaker<br>
&gt; Feb 10 07:56:25 [5247] host1 stonith-ng:    error: ais_dispatch:       AIS<br>
&gt; connection failed<br>
&gt; Feb 10 07:56:25 [5249] host1      attrd:   notice: main:       Exiting...<br>
&gt; Feb 10 07:56:25 [5247] host1 stonith-ng:    error: stonith_peer_ais_destroy:<br>
&gt; AIS connection terminated<br>
&gt; Feb 10 07:56:25 [5242] host1 pacemakerd:   notice: stop_child:<br>
&gt; Stopping crmd: Sent -15 to process 5251<br>
&gt; Feb 10 07:56:25 [5249] host1      attrd:    error:<br>
&gt; attrd_cib_connection_destroy:       Connection to the CIB terminated...<br>
&gt; Feb 10 07:56:25 [5251] host1       crmd:     info: crm_signal_dispatch:<br>
&gt; Invoking handler for signal 15: Terminated<br>
&gt; Feb 10 07:56:25 [5251] host1       crmd:   notice: crm_shutdown:<br>
&gt; Requesting shutdown, upper limit is 1200000ms<br>
&gt; Feb 10 07:56:25 [5251] host1       crmd:     info: do_shutdown_req:<br>
&gt; Sending shutdown request to host2<br>
&gt; Feb 10 07:56:25 [5242] host1 pacemakerd:    error: pcmk_child_exit:    Child<br>
&gt; process stonith-ng exited (pid=5247, rc=1)<br>
&gt; Feb 10 07:56:25 [5242] host1 pacemakerd:  warning: send_ipc_message:   IPC<br>
&gt; Channel to 5249 is not connected<br>
&gt; Feb 10 07:56:25 [5242] host1 pacemakerd:  warning: send_ipc_message:   IPC<br>
&gt; Channel to 5246 is not connected<br>
&gt; Feb 10 07:56:25 [5242] host1 pacemakerd:  warning: send_ipc_message:   IPC<br>
&gt; Channel to 5247 is not connected<br>
&gt; Feb 10 07:56:25 [5242] host1 pacemakerd:    error: send_cpg_message:<br>
&gt; Sending message via cpg FAILED: (rc=9) Bad handle<br>
&gt; Feb 10 07:56:25 [5242] host1 pacemakerd:    error: pcmk_child_exit:    Child<br>
&gt; process cib exited (pid=5246, rc=1)<br>
&gt; Feb 10 07:56:25 [5242] host1 pacemakerd:    error: send_cpg_message:<br>
&gt; Sending message via cpg FAILED: (rc=9) Bad handle<br>
&gt; Feb 10 07:56:25 [5242] host1 pacemakerd:    error: pcmk_child_exit:    Child<br>
&gt; process attrd exited (pid=5249, rc=1)<br>
&gt; Feb 10 07:56:25 [5242] host1 pacemakerd:    error: send_cpg_message:<br>
&gt; Sending message via cpg FAILED: (rc=9) Bad handle<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:    error: send_ais_text:<br>
&gt; Sending message 68 via pcmk: FAILED (rc=2): Library error: Connection timed<br>
&gt; out (110)<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:    error: do_log:     FSA: Input<br>
&gt; I_ERROR from do_shutdown_req() received in state S_NOT_DC<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:   notice: do_state_transition:<br>
&gt; State transition S_NOT_DC -&gt; S_RECOVERY [ input=I_ERROR cause=C_FSA_INTERNAL<br>
&gt; origin=do_shutdown_req ]<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:    error: do_recover:<br>
&gt; Action A_RECOVER (0000000001000000) not supported<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:    error: do_log:     FSA: Input<br>
&gt; I_TERMINATE from do_recover() received in state S_RECOVERY<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:   notice: do_state_transition:<br>
&gt; State transition S_RECOVERY -&gt; S_TERMINATE [ input=I_TERMINATE<br>
&gt; cause=C_FSA_INTERNAL origin=do_recover ]<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:     info: do_shutdown:<br>
&gt; Disconnecting STONITH...<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:     info:<br>
&gt; tengine_stonith_connection_destroy:         Fencing daemon disconnected<br>
&gt; Feb 10 07:56:27 host1 lrmd: [5248]: info: cancel_op: operation monitor[25]<br>
&gt; on ocf::OpenStackFloatingIP::P_SESSION_IP for client 5251, its parameters:<br>
&gt; CRM_meta_name=[monitor] crm_feature_set=[3.0.6] CRM_meta_timeout=[20000]<br>
&gt; CRM_meta_interval=[5000] ip=[172.24.0.104]  cancelled<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:    error: verify_stopped:<br>
&gt; Resource P_SESSION_IP was active at shutdown.  You may ignore this error if<br>
&gt; it is unmanaged.<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:     info: do_lrm_control:<br>
&gt; Disconnected from the LRM<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:   notice: terminate_ais_connection:<br>
&gt; Disconnecting from AIS<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:     info: do_ha_control:<br>
&gt; Disconnected from OpenAIS<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:     info: do_cib_control:<br>
&gt; Disconnecting CIB<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:    error: send_ipc_message:   IPC<br>
&gt; Channel to 5246 is not connected<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:    error: send_ipc_message:   IPC<br>
&gt; Channel to 5246 is not connected<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:    error:<br>
&gt; cib_native_perform_op_delegate:     Sending message to CIB service FAILED<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:     info:<br>
&gt; crmd_cib_connection_destroy:        Connection to the CIB terminated...<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:    error: verify_stopped:<br>
&gt; Resource P_SESSION_IP was active at shutdown.  You may ignore this error if<br>
&gt; it is unmanaged.<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:     info: do_exit:    Performing<br>
&gt; A_EXIT_0 - gracefully exiting the CRMd<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:    error: do_exit:    Could not<br>
&gt; recover from internal error<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:     info: free_mem:   Dropping<br>
&gt; I_TERMINATE: [ state=S_TERMINATE cause=C_FSA_INTERNAL origin=do_stop ]<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:     info: crm_xml_cleanup:<br>
&gt; Cleaning up memory from libxml2<br>
&gt; Feb 10 07:56:27 [5251] host1       crmd:     info: do_exit:    [crmd]<br>
&gt; stopped (2)<br>
&gt; Feb 10 07:56:27 [5242] host1 pacemakerd:    error: pcmk_child_exit:    Child<br>
&gt; process crmd exited (pid=5251, rc=2)<br>
&gt; Feb 10 07:56:27 [5242] host1 pacemakerd:  warning: send_ipc_message:   IPC<br>
&gt; Channel to 5251 is not connected<br>
&gt; Feb 10 07:56:27 [5242] host1 pacemakerd:    error: send_cpg_message:<br>
&gt; Sending message via cpg FAILED: (rc=9) Bad handle<br>
&gt; Feb 10 07:56:27 [5242] host1 pacemakerd:   notice: stop_child:<br>
&gt; Stopping pengine: Sent -15 to process 5250<br>
&gt; Feb 10 07:56:27 [5242] host1 pacemakerd:     info: pcmk_child_exit:    Child<br>
&gt; process pengine exited (pid=5250, rc=0)<br>
&gt; Feb 10 07:56:27 [5242] host1 pacemakerd:    error: send_cpg_message:<br>
&gt; Sending message via cpg FAILED: (rc=9) Bad handle<br>
&gt; Feb 10 07:56:27 [5242] host1 pacemakerd:   notice: stop_child:<br>
&gt; Stopping lrmd: Sent -15 to process 5248<br>
&gt; Feb 10 07:56:27 host1 lrmd: [5248]: info: lrmd is shutting down<br>
&gt; Feb 10 07:56:27 [5242] host1 pacemakerd:     info: pcmk_child_exit:    Child<br>
&gt; process lrmd exited (pid=5248, rc=0)<br>
&gt; Feb 10 07:56:27 [5242] host1 pacemakerd:    error: send_cpg_message:<br>
&gt; Sending message via cpg FAILED: (rc=9) Bad handle<br>
&gt; Feb 10 07:56:27 [5242] host1 pacemakerd:   notice: pcmk_shutdown_worker:<br>
&gt; Shutdown complete<br>
&gt; Feb 10 07:56:27 [5242] host1 pacemakerd:     info: main:       Exiting<br>
&gt; pacemakerd<br>
&gt;<br>
&gt;<br>
&gt; corosync.conf:<br>
&gt;<br>
&gt; compatibility: whitetank<br>
&gt;<br>
&gt; totem {<br>
&gt;         version: 2<br>
&gt;         secauth: off<br>
&gt;         nodeid: 104<br>
&gt;         interface {<br>
&gt;                 member {<br>
&gt;                         memberaddr: 172.17.0.104<br>
&gt;                 }<br>
&gt;                 member {<br>
&gt;                         memberaddr: 172.17.0.105<br>
&gt;                 }<br>
&gt;                 ringnumber: 0<br>
&gt;                 bindnetaddr: 172.17.0.0<br>
&gt;                 mcastport: 5426<br>
&gt;                 ttl: 1<br>
&gt;         }<br>
&gt;         transport: udpu<br>
&gt; }<br>
&gt;<br>
&gt; logging {<br>
&gt;         fileline: off<br>
&gt;         to_logfile: yes<br>
&gt;         to_syslog: yes<br>
&gt;         debug: on<br>
&gt;         logfile: /var/log/cluster/corosync.log<br>
&gt;         debug: off<br>
&gt;         timestamp: on<br>
&gt;         logger_subsys {<br>
&gt;                 subsys: AMF<br>
&gt;                 debug: off<br>
&gt;         }<br>
&gt; }<br>
&gt; service {<br>
&gt;        # Load the Pacemaker Cluster Resource Manager<br>
&gt;        ver:       1<br>
&gt;        name:      pacemaker<br>
&gt; }<br>
&gt;<br>
&gt; aisexec {<br>
&gt;        user:   root<br>
&gt;        group:  root<br>
&gt; }<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; Thank you!<br>
&gt;<br>
&gt; --<br>
&gt; Viacheslav Biriukov<br>
&gt; BR<br>
&gt; <a href="http://biriukov.me" target="_blank">http://biriukov.me</a><br>
&gt;<br>
</div></div>&gt; _______________________________________________<br>
&gt; Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>
&gt; <a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
&gt;<br>
&gt; Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
&gt; Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br>
&gt;<br>
<span class="HOEnZb"><font color="#888888"><br>
<br>
<br>
--<br>
Dan Frincu<br>
CCNA, RHCE<br>
<br>
_______________________________________________<br>
Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>
<a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br>
</font></span></blockquote></div><br><br clear="all"><div><br></div>-- <br><div dir="ltr">Viacheslav Biriukov<br>BR<br><div><a href="http://biriukov.me" target="_blank">http://biriukov.me</a></div></div>
</div>