Hi Andrew,<br><br>&nbsp;I took oprofile of 120 seconds before Time-out occurs.<br>&nbsp;However, sorted_xml function seems not to be called it so much as far as I watch log of Oprofile.<br><br>&nbsp;I took Oprofile by a sample program. <br>
&nbsp;But, the contents of Oprofile did not agree with the contents of the sample program. <br>&nbsp;Therefore I used systemtap because I was not able to do internal bottleneck analysis from information of this Oprofile.<br><br><br>
<div class="gmail_quote">2010$BG/(B8$B7n(B4$BF|(B18:56 nozawat <span dir="ltr">&lt;<a href="mailto:nozawat@gmail.com">nozawat@gmail.com</a>&gt;</span>:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Hi Andrew,<br><br>&nbsp;I send the cib file of the point in time when environmental construction was completed.<div class="im"><br>&nbsp;<br>&gt;Maybe oprofile can suggest something.<br></div>OK, I measure even Oprofile.<br><br>-- <br>
Regards,<br>Tomo<br>
&nbsp;<br><br><div class="gmail_quote">2010/8/4 Andrew Beekhof <span dir="ltr">&lt;<a href="mailto:andrew@beekhof.net" target="_blank">andrew@beekhof.net</a>&gt;</span><div><div></div><div class="h5"><br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

2010/8/3 nozawat &lt;<a href="mailto:nozawat@gmail.com" target="_blank">nozawat@gmail.com</a>&gt;:<br>
<div>&gt; Hi Andrew,<br>
&gt;<br>
&gt; I changed cluster option to batch-limit=3,I re-tried it.<br>
&gt; However, similar time-out occurs.<br>
&gt;<br>
&gt; I measured processing just before the time-out(120s) in systemtap.<br>
&gt; The following only the function long time.<br>
&gt; -----<br>
&gt; probe start! ---------------------------------<br>
&gt; &nbsp; cib_process_request&nbsp; [call-count:179][117,540,173,155 nsec]<br>
&gt; &nbsp; cib_process_command&nbsp; [call:179]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [116,471,047,275 nsec]<br>
&gt; cib_process_command&nbsp; call function ---<br>
&gt; &nbsp; cib_config_changed&nbsp;&nbsp; [call:179]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [101,169,909,572 nsec]<br>
&gt; cib_config_changed&nbsp;&nbsp; call function ---<br>
&gt; &nbsp; calculate_xml_digest [call:179]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [ 68,820,560,745 nsec]<br>
&gt; &nbsp; create_xml_node&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [call:3012263]&nbsp; [ 19,855,469,976 nsec]$B"((B<br>
<br>
</div>But, but, create_xml_node() barely does _anything_.<br>
<br>
It&#39;s hard to imagine how this could take 19s:<br>
<br>
xmlNode*<br>
create_xml_node(xmlNode *parent, const char *name)<br>
{<br>
 &nbsp; &nbsp;xmlDoc *doc = NULL;<br>
 &nbsp; &nbsp;xmlNode *node = NULL;<br>
<br>
 &nbsp; &nbsp;if (name == NULL || name[0] == 0) {<br>
 &nbsp; &nbsp; &nbsp; &nbsp;return NULL;<br>
 &nbsp; &nbsp;}<br>
<br>
 &nbsp; &nbsp;if(parent == NULL) {<br>
 &nbsp; &nbsp; &nbsp; &nbsp;doc = xmlNewDoc((const xmlChar*)&quot;1.0&quot;);<br>
 &nbsp; &nbsp; &nbsp; &nbsp;node = xmlNewDocRawNode(doc, NULL, (const xmlChar*)name, NULL);<br>
 &nbsp; &nbsp; &nbsp; &nbsp;xmlDocSetRootElement(doc, node);<br>
<br>
 &nbsp; &nbsp;} else {<br>
 &nbsp; &nbsp; &nbsp; &nbsp;doc = getDocPtr(parent);<br>
 &nbsp; &nbsp; &nbsp; &nbsp;node = xmlNewDocRawNode(doc, NULL, (const xmlChar*)name, NULL);<br>
 &nbsp; &nbsp; &nbsp; &nbsp;xmlAddChild(parent, node);<br>
 &nbsp; &nbsp;}<br>
 &nbsp; &nbsp;return node;<br>
}<br>
<br>
Is this data all from the CIB process?<br>
What was the load from the other processes like? (Ie. using top)<br>
<div><br>
&gt; &nbsp; xpath_search&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [call:179]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [&nbsp;&nbsp;&nbsp; 145,030,232 nsec]<br>
&gt; &nbsp; diff_xml_object&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [call:179]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [ 32,677,359,476 nsec]$B"((B<br>
&gt; calculate_xml_digest call function ---<br>
&gt; &nbsp; sorted_xml&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [call:1505799]&nbsp; [ 52,512,465,838 nsec]$B"((B<br>
<br>
</div>Yikes, these are also really high.<br>
Could you send me the CIB so that we can profile these operations on it?<br>
<div><br>
&gt; &nbsp; copy_xml&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [call:179]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [&nbsp; 3,692,232,073 nsec]<br>
&gt; &nbsp; dump_xml&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [call:536]&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [&nbsp; 6,177,606,232 nsec]<br>
&gt; -----<br>
&gt; Is there the method to make these processing early?<br>
<br>
</div>You mean faster?<br>
Maybe oprofile can suggest something.<br>
<div><div></div><div><br>
&gt;<br>
&gt;<br>
&gt; 2010/6/14 &lt;<a href="mailto:renayama19661014@ybb.ne.jp" target="_blank">renayama19661014@ybb.ne.jp</a>&gt;<br>
&gt;&gt;<br>
&gt;&gt; Hi Andrew,<br>
&gt;&gt;<br>
&gt;&gt; Thank you for comment.<br>
&gt;&gt;<br>
&gt;&gt; &gt; More likely of the underlying messaging infrastructure, but I&#39;ll take a<br>
&gt;&gt; &gt; look.<br>
&gt;&gt; &gt; Perhaps the default cib operation timeouts are too low for larger<br>
&gt;&gt; &gt; clusters.<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt; The log attached it to next Bugzilla.<br>
&gt;&gt; &gt; &gt; &amp;#65533;*<br>
&gt;&gt; &gt; &gt; <a href="http://developerbugs.linux-foundation.org/show_bug.cgi?id=2443" target="_blank">http://developerbugs.linux-foundation.org/show_bug.cgi?id=2443</a><br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; Ok, I&#39;ll follow up there.<br>
&gt;&gt;<br>
&gt;&gt; If it is necessary for us to work for the solution of the problem, please<br>
&gt;&gt; order it.<br>
&gt;&gt;<br>
&gt;&gt; Best Regards,<br>
&gt;&gt; Hideo Yamauchi.<br>
&gt;&gt;<br>
&gt;&gt; --- Andrew Beekhof &lt;<a href="mailto:andrew@beekhof.net" target="_blank">andrew@beekhof.net</a>&gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt; &gt; On Mon, Jun 14, 2010 at 4:46 AM, &nbsp;&lt;<a href="mailto:renayama19661014@ybb.ne.jp" target="_blank">renayama19661014@ybb.ne.jp</a>&gt; wrote:<br>
&gt;&gt; &gt; &gt; We tested 16 node constitution (15+1).<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt; We carried out the next procedure.<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt; Step1) Start 16 nodes.<br>
&gt;&gt; &gt; &gt; Step2) Send cib after a DC node was decided.<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt; An error occurs by the update of the attribute of pingd after Probe<br>
&gt;&gt; &gt; &gt; processing was over.<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt;<br>
&gt;&gt; ----------------------------------------------------------------------------------------------------------------------------------------<br>
&gt;&gt; &gt; &gt; Jun 14 10:58:03 hb0102 pingd: [2465]: info: ping_read: Retrying...<br>
&gt;&gt; &gt; &gt; Jun 14 10:58:13 hb0102 attrd: [2155]: WARN: attrd_cib_callback: Update<br>
&gt;&gt; &gt; &gt; 337 for<br>
&gt;&gt; &gt; default_ping_set=1600<br>
&gt;&gt; &gt; &gt; failed: Remote node did not respond<br>
&gt;&gt; &gt; &gt; Jun 14 10:58:13 hb0102 attrd: [2155]: WARN: attrd_cib_callback: Update<br>
&gt;&gt; &gt; &gt; 340 for<br>
&gt;&gt; &gt; default_ping_set=1600<br>
&gt;&gt; &gt; &gt; failed: Remote node did not respond<br>
&gt;&gt; &gt; &gt; Jun 14 10:58:13 hb0102 attrd: [2155]: WARN: attrd_cib_callback: Update<br>
&gt;&gt; &gt; &gt; 343 for<br>
&gt;&gt; &gt; default_ping_set=1600<br>
&gt;&gt; &gt; &gt; failed: Remote node did not respond<br>
&gt;&gt; &gt; &gt; Jun 14 10:58:13 hb0102 attrd: [2155]: WARN: attrd_cib_callback: Update<br>
&gt;&gt; &gt; &gt; 346 for<br>
&gt;&gt; &gt; default_ping_set=1600<br>
&gt;&gt; &gt; &gt; failed: Remote node did not respond<br>
&gt;&gt; &gt; &gt; Jun 14 10:58:13 hb0102 attrd: [2155]: WARN: attrd_cib_callback: Update<br>
&gt;&gt; &gt; &gt; 349 for<br>
&gt;&gt; &gt; default_ping_set=1600<br>
&gt;&gt; &gt; &gt; failed: Remote node did not respond<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt;<br>
&gt;&gt; ----------------------------------------------------------------------------------------------------------------------------------------<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt; In the middle of this error, I carried out a cibadmin(-Q optin)<br>
&gt;&gt; &gt; &gt; command, but time-out<br>
&gt;&gt; &gt; occurred.<br>
&gt;&gt; &gt; &gt; In addition, cib of the DC node seemed to move by the top command very<br>
&gt;&gt; &gt; &gt; busily.<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt; In addition, a communication error with cib occurs in the DC node, and<br>
&gt;&gt; &gt; &gt; crmd reboots.<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt;<br>
&gt;&gt; ----------------------------------------------------------------------------------------------------------------------------------------<br>
&gt;&gt; &gt; &gt; Jun 14 10:58:09 hb0101 attrd: [2278]: WARN: xmlfromIPC: No message<br>
&gt;&gt; &gt; &gt; received in the required<br>
&gt;&gt; &gt; interval<br>
&gt;&gt; &gt; &gt; (120s)<br>
&gt;&gt; &gt; &gt; Jun 14 10:58:09 hb0101 attrd: [2278]: info: attrd_perform_update: Sent<br>
&gt;&gt; &gt; &gt; update -41:<br>
&gt;&gt; &gt; &gt; default_ping_set=1600<br>
&gt;&gt; &gt; &gt; (snip)<br>
&gt;&gt; &gt; &gt; Jun 14 10:59:07 hb0101 crmd: [2280]: info: do_exit: [crmd] stopped (2)<br>
&gt;&gt; &gt; &gt; Jun 14 10:59:07 hb0101 corosync[2269]: &amp;#65533; [pcmk &amp;#65533;]<br>
&gt;&gt; &gt; &gt; plugin.c:858 info: pcmk_ipc_exit:<br>
&gt;&gt; Client<br>
&gt;&gt; &gt; crmd<br>
&gt;&gt; &gt; &gt; (conn=0x106a2bf0, async-conn=0x106a2bf0) left<br>
&gt;&gt; &gt; &gt; Jun 14 10:59:08 hb0101 corosync[2269]: &amp;#65533; [pcmk &amp;#65533;]<br>
&gt;&gt; &gt; &gt; plugin.c:481 ERROR:<br>
&gt;&gt; pcmk_wait_dispatch:<br>
&gt;&gt; &gt; Child<br>
&gt;&gt; &gt; &gt; process crmd exited (pid=2280, rc=2)<br>
&gt;&gt; &gt; &gt; Jun 14 10:59:08 hb0101 corosync[2269]: &amp;#65533; [pcmk &amp;#65533;]<br>
&gt;&gt; &gt; &gt; plugin.c:498 notice:<br>
&gt;&gt; pcmk_wait_dispatch:<br>
&gt;&gt; &gt; Respawning<br>
&gt;&gt; &gt; &gt; failed child process: crmd<br>
&gt;&gt; &gt; &gt; Jun 14 10:59:08 hb0101 corosync[2269]: &amp;#65533; [pcmk &amp;#65533;]<br>
&gt;&gt; &gt; &gt; utils.c:131 info: spawn_child:<br>
&gt;&gt; Forked child<br>
&gt;&gt; &gt; 2680 for<br>
&gt;&gt; &gt; &gt; process crmd<br>
&gt;&gt; &gt; &gt; Jun 14 10:59:08 hb0101 crmd: [2680]: info: Invoked:<br>
&gt;&gt; &gt; &gt; /usr/lib64/heartbeat/crmd<br>
&gt;&gt; &gt; &gt; Jun 14 10:59:08 hb0101 crmd: [2680]: info: main: CRM Hg Version:<br>
&gt;&gt; &gt; &gt; 9f04fa88cfd3da553e977cc79983d1c494c8b502<br>
&gt;&gt; &gt; &gt; Jun 14 10:59:08 hb0101 crmd: [2680]: info: crmd_init: Starting crmd<br>
&gt;&gt; &gt; &gt; Jun 14 10:59:08 hb0101 crmd: [2680]: info: G_main_add_SignalHandler:<br>
&gt;&gt; &gt; &gt; Added signal handler for<br>
&gt;&gt; &gt; signal<br>
&gt;&gt; &gt; &gt; 17<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt;<br>
&gt;&gt; ----------------------------------------------------------------------------------------------------------------------------------------<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt; There seems to be a problem in cib of the DC node somehow or other.<br>
&gt;&gt; &gt; &gt; We hope that an attribute change is completed in 16 nodes definitely.<br>
&gt;&gt; &gt; &gt; &amp;#65533;* Is this phenomenon a limit of the current cib process?<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; More likely of the underlying messaging infrastructure, but I&#39;ll take a<br>
&gt;&gt; &gt; look.<br>
&gt;&gt; &gt; Perhaps the default cib operation timeouts are too low for larger<br>
&gt;&gt; &gt; clusters.<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt; The log attached it to next Bugzilla.<br>
&gt;&gt; &gt; &gt; &amp;#65533;*<br>
&gt;&gt; &gt; &gt; <a href="http://developerbugs.linux-foundation.org/show_bug.cgi?id=2443" target="_blank">http://developerbugs.linux-foundation.org/show_bug.cgi?id=2443</a><br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; Ok, I&#39;ll follow up there.<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt; Best Regards,<br>
&gt;&gt; &gt; &gt; Hideo Yamauchi.<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt; _______________________________________________<br>
&gt;&gt; &gt; &gt; Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org" target="_blank">Pacemaker@oss.clusterlabs.org</a><br>
&gt;&gt; &gt; &gt; <a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt; &gt; Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
&gt;&gt; &gt; &gt; Getting started:<br>
&gt;&gt; &gt; &gt; <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
&gt;&gt; &gt; &gt; Bugs:<br>
&gt;&gt; &gt; &gt; <a href="http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker" target="_blank">http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker</a><br>
&gt;&gt; &gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; _______________________________________________<br>
&gt;&gt; &gt; Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org" target="_blank">Pacemaker@oss.clusterlabs.org</a><br>
&gt;&gt; &gt; <a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
&gt;&gt; &gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
&gt;&gt; &gt; Bugs:<br>
&gt;&gt; &gt; <a href="http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker" target="_blank">http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker</a><br>
&gt;&gt; &gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; _______________________________________________<br>
&gt;&gt; Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org" target="_blank">Pacemaker@oss.clusterlabs.org</a><br>
&gt;&gt; <a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
&gt;&gt;<br>
&gt;&gt; Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
&gt;&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
&gt;&gt; Bugs:<br>
&gt;&gt; <a href="http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker" target="_blank">http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker</a><br>
&gt;<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org" target="_blank">Pacemaker@oss.clusterlabs.org</a><br>
&gt; <a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
&gt;<br>
&gt; Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
&gt; Bugs:<br>
&gt; <a href="http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker" target="_blank">http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker</a><br>
&gt;<br>
&gt;<br>
<br>
_______________________________________________<br>
Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org" target="_blank">Pacemaker@oss.clusterlabs.org</a><br>
<a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker" target="_blank">http://developerbugs.linux-foundation.org/enter_bug.cgi?product=Pacemaker</a><br>
</div></div></blockquote></div></div></div><font color="#888888"><br><br clear="all"><br>-- <br>Regards,<br>Tomo<br><br>
</font></blockquote></div><br><br clear="all"><br>-- <br>Regards,<br>Tomo<br><br>