<html><head></head><body><div style="font-family: Verdana;font-size: 12.0px;"><div>
<div>Hi John,</div>

<div>to get Corosync/Pacemaker running during anaconda installation, i have created a configuration RPM package which does a few actions before starting Corosync and Pacemaker.</div>

<div>&nbsp;</div>

<div>An excerpt of the post install of this RPM.</div>

<div>
<div># mount /dev/shm if not already existing, otherwise openais cannot work<br/>
if [ ! -d /dev/shm ]; then<br/>
&nbsp;&nbsp;&nbsp; mkdir /dev/shm<br/>
&nbsp;&nbsp;&nbsp; mount /dev/shm<br/>
fi</div>

<div>
<div># resource agents might run as different user<br/>
chmod -R go+rwx /var/lib/heartbeat/cores</div>

<div>&nbsp;</div>

<div>Rainer</div>

<div>&nbsp;</div>
</div>

<div name="quote" style="margin:10px 5px 5px 10px; padding: 10px 0 10px 10px; border-left:2px solid #C3D9E5; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;">
<div style="margin:0 0 10px 0;"><b>Gesendet:</b>&nbsp;Donnerstag, 28. M&auml;rz 2013 um 00:46 Uhr<br/>
<b>Von:</b>&nbsp;&quot;Andrew Beekhof&quot; &lt;andrew@beekhof.net&gt;<br/>
<b>An:</b>&nbsp;&quot;The Pacemaker cluster resource manager&quot; &lt;pacemaker@oss.clusterlabs.org&gt;<br/>
<b>Betreff:</b>&nbsp;Re: [Pacemaker] issues when installing on pxe booted environment</div>

<div name="quoted-content">What about /dev/shm ?<br/>
Libqb tries to create some shared memory in that location by default.<br/>
<br/>
On Thu, Mar 28, 2013 at 8:50 AM, John White &lt;jwhite@lbl.gov&gt; wrote:<br/>
&gt; Yup:<br/>
&gt; -bash-4.1&#36; cd /var/run/crm/<br/>
&gt; -bash-4.1&#36; ls<br/>
&gt; lost+found pcmk pengine st_callback st_command<br/>
&gt; -bash-4.1&#36; touch blah<br/>
&gt; -bash-4.1&#36; ls -l<br/>
&gt; total 16<br/>
&gt; -rw-r--r-- 1 hacluster haclient 0 Mar 27 14:50 blah<br/>
&gt; drwx------ 2 root root 16384 Mar 14 15:00 lost+found<br/>
&gt; srwxrwxrwx 1 root root 0 Mar 22 11:25 pcmk<br/>
&gt; srwxrwxrwx 1 hacluster root 0 Mar 22 11:25 pengine<br/>
&gt; srwxrwxrwx 1 root root 0 Mar 22 11:25 st_callback<br/>
&gt; srwxrwxrwx 1 root root 0 Mar 22 11:25 st_command<br/>
&gt; -bash-4.1&#36; ls -l /var/run/&#124; grep crm<br/>
&gt; drwxr-xr-x 3 hacluster haclient 4096 Mar 27 14:50 crm<br/>
&gt; -bash-4.1&#36; whoami<br/>
&gt; hacluster<br/>
&gt; -bash-4.1&#36;<br/>
&gt; ----------------<br/>
&gt; John White<br/>
&gt; HPC Systems Engineer<br/>
&gt; (510) 486-7307<br/>
&gt; One Cyclotron Rd, MS: 50C-3209C<br/>
&gt; Lawrence Berkeley National Lab<br/>
&gt; Berkeley, CA 94720<br/>
&gt;<br/>
&gt; On Mar 25, 2013, at 4:21 PM, Andreas Kurz &lt;andreas@hastexo.com&gt; wrote:<br/>
&gt;<br/>
&gt;&gt; On 2013-03-22 19:31, John White wrote:<br/>
&gt;&gt;&gt; Hello Folks,<br/>
&gt;&gt;&gt; We&#39;re trying to get a corosync/pacemaker instance going on a 4 node cluster that boots via pxe. There have been a number of state/file system issues, but those appear to be *mostly* taken care of thus far. We&#39;re running into an issue now where cib just isn&#39;t staying up with errors akin to the following (sorry for the lengthy dump, note the attrd and cib connection errors). Any ideas would be greatly appreciated:<br/>
&gt;&gt;&gt;<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 cib: [25839]: info: validate_with_relaxng: Creating RNG parser context<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 attrd: [25841]: info: Invoked: /usr/lib64/heartbeat/attrd<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 attrd: [25841]: info: crm_log_init_worker: Changed active directory to /var/lib/heartbeat/cores/hacluster<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 attrd: [25841]: info: main: Starting up<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 attrd: [25841]: info: get_cluster_type: Cluster type is: &#39;corosync&#39;<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 attrd: [25841]: notice: crm_cluster_connect: Connecting to cluster infrastructure: corosync<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 attrd: [25841]: ERROR: init_cpg_connection: Could not connect to the Cluster Process Group API: 2<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 attrd: [25841]: ERROR: main: HA Signon failed<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 attrd: [25841]: info: main: Cluster connection active<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 attrd: [25841]: info: main: Accepting attribute updates<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 attrd: [25841]: ERROR: main: Aborting startup<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 pengine: [25842]: info: Invoked: /usr/lib64/heartbeat/pengine<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 pengine: [25842]: info: crm_log_init_worker: Changed active directory to /var/lib/heartbeat/cores/hacluster<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 pengine: [25842]: debug: main: Checking for old instances of pengine<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 pengine: [25842]: debug: init_client_ipc_comms_nodispatch: Attempting to talk on: /var/run/crm/pengine<br/>
&gt;&gt;<br/>
&gt;&gt; That &quot;/var/run/crm&quot; directory is available and owned by<br/>
&gt;&gt; hacluster.haclient ... and writable by at least the hacluster user?<br/>
&gt;&gt;<br/>
&gt;&gt; Regards,<br/>
&gt;&gt; Andreas<br/>
&gt;&gt;<br/>
&gt;&gt; --<br/>
&gt;&gt; Need help with Pacemaker?<br/>
&gt;&gt; <a href="http://www.hastexo.com/now" target="_blank">http://www.hastexo.com/now</a><br/>
&gt;&gt;<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 pacemakerd: [25834]: ERROR: pcmk_child_exit: Child process attrd exited (pid=25841, rc=100)<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 pacemakerd: [25834]: notice: pcmk_child_exit: Child process attrd no longer wishes to be respawned<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 pacemakerd: [25834]: info: update_node_processes: Node n0014.lustre now has process list: 00000000000000000000000000110312 (was 00000000000000000000000000111312)<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 pengine: [25842]: debug: init_client_ipc_comms_nodispatch: Could not init comms on: /var/run/crm/pengine<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 pengine: [25842]: debug: main: Init server comms<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 pengine: [25842]: info: main: Starting pengine<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 stonith-ng: [25838]: debug: init_cpg_connection: Adding fd=4 to mainloop<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 stonith-ng: [25838]: info: init_ais_connection_once: Connection to &#39;corosync&#39;: established<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 stonith-ng: [25838]: debug: crm_new_peer: Creating entry for node n0014.lustre/247988234<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 stonith-ng: [25838]: info: crm_new_peer: Node n0014.lustre now has id: 247988234<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 stonith-ng: [25838]: info: crm_new_peer: Node 247988234 is now known as n0014.lustre<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 stonith-ng: [25838]: debug: init_client_ipc_comms_nodispatch: Attempting to talk on: /var/run/crm/pcmk<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: info: Invoked: /usr/lib64/heartbeat/crmd<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 pacemakerd: [25834]: debug: pcmk_client_connect: Channel 0x995530 connected: 1 children<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 stonith-ng: [25838]: info: main: Starting stonith-ng mainloop<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: info: crm_log_init_worker: Changed active directory to /var/lib/heartbeat/cores/hacluster<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: info: main: CRM Hg Version: a02c0f19a00c1eb2527ad38f146ebc0834814558<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: info: crmd_init: Starting crmd<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: s_crmd_fsa: Processing I_STARTUP: [ state=S_STARTING cause=C_STARTUP origin=crmd_init ]<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: do_fsa_action: actions:trace: #011// A_LOG<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: do_fsa_action: actions:trace: #011// A_STARTUP<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: do_startup: Registering Signal Handlers<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: do_startup: Creating CIB and LRM objects<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 stonith-ng: [25838]: info: crm_update_peer: Node n0014.lustre: id=247988234 state=unknown addr=(null) votes=0 born=0 seen=0 proc=00000000000000000000000000110312 (new)<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: info: G_main_add_SignalHandler: Added signal handler for signal 17<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: do_fsa_action: actions:trace: #011// A_CIB_START<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: init_client_ipc_comms_nodispatch: Attempting to talk on: /var/run/crm/cib_rw<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: init_client_ipc_comms_nodispatch: Could not init comms on: /var/run/crm/cib_rw<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: cib_native_signon_raw: Connection to command channel failed<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: init_client_ipc_comms_nodispatch: Attempting to talk on: /var/run/crm/cib_callback<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: init_client_ipc_comms_nodispatch: Could not init comms on: /var/run/crm/cib_callback<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: cib_native_signon_raw: Connection to callback channel failed<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: cib_native_signon_raw: Connection to CIB failed: connection failed<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 crmd: [25843]: debug: cib_native_signoff: Signing out of the CIB Service<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 cib: [25839]: ERROR: Element cib failed to validate content<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 cib: [25839]: ERROR: readCibXmlFile: CIB does not validate with &lt;null&gt;<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 cib: [25839]: info: startCib: CIB Initialization completed successfully<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 cib: [25839]: info: get_cluster_type: Cluster type is: &#39;corosync&#39;<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 cib: [25839]: notice: crm_cluster_connect: Connecting to cluster infrastructure: corosync<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 cib: [25839]: ERROR: init_cpg_connection: Could not connect to the Cluster Process Group API: 2<br/>
&gt;&gt;&gt; Mar 22 11:25:18 n0014 cib: [25839]: CRIT: cib_init: Cannot sign in to the cluster... terminating<br/>
&gt;&gt;&gt;<br/>
&gt;&gt;&gt;<br/>
&gt;&gt;&gt; ----------------<br/>
&gt;&gt;&gt; John White<br/>
&gt;&gt;&gt; HPC Systems Engineer<br/>
&gt;&gt;&gt; (510) 486-7307<br/>
&gt;&gt;&gt; One Cyclotron Rd, MS: 50C-3209C<br/>
&gt;&gt;&gt; Lawrence Berkeley National Lab<br/>
&gt;&gt;&gt; Berkeley, CA 94720<br/>
&gt;&gt;&gt;<br/>
&gt;&gt;&gt;<br/>
&gt;&gt;&gt; _______________________________________________<br/>
&gt;&gt;&gt; Pacemaker mailing list: Pacemaker@oss.clusterlabs.org<br/>
&gt;&gt;&gt; <a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br/>
&gt;&gt;&gt;<br/>
&gt;&gt;&gt; Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br/>
&gt;&gt;&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br/>
&gt;&gt;&gt; Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br/>
&gt;&gt;&gt;<br/>
&gt;&gt;<br/>
&gt;&gt;<br/>
&gt;&gt;<br/>
&gt;&gt;<br/>
&gt;&gt; _______________________________________________<br/>
&gt;&gt; Pacemaker mailing list: Pacemaker@oss.clusterlabs.org<br/>
&gt;&gt; <a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br/>
&gt;&gt;<br/>
&gt;&gt; Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br/>
&gt;&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br/>
&gt;&gt; Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br/>
&gt;<br/>
&gt;<br/>
&gt; _______________________________________________<br/>
&gt; Pacemaker mailing list: Pacemaker@oss.clusterlabs.org<br/>
&gt; <a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br/>
&gt;<br/>
&gt; Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br/>
&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br/>
&gt; Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br/>
<br/>
_______________________________________________<br/>
Pacemaker mailing list: Pacemaker@oss.clusterlabs.org<br/>
<a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br/>
<br/>
Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br/>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br/>
Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a></div>
</div>
</div>
</div></div></body></html>