<div dir="ltr"> Hi,<div><div><br></div><div>I&#39;ve checked the resource graphs I have, and the resources were fine, so I think it&#39;s not a problem due to a high use of memory or something like that.</div><div>And unfortunately I don&#39;t have a core dump to analize(I&#39;ll enable it for a future case) so the only thing I have are the logs.</div><div><br></div><div>For the line below, I though that was the process in charge to monitore nginx what was killed due to a segfault:</div><div><br></div><div>RA output: (Nginx-rsc:monitor:stderr) Segmentation fault</div><div><br></div><div> </div><div>I&#39;ve checked the Nginx logs, and there is nothing worth there, actually there is no activity, so I think it has to be something internal what caused the failure.</div><div>I&#39;ll enable coredumps, it&#39;s the only thing I can do for now.</div><div><br></div><div>Thank you very much</div><div><br></div><div>Oscar</div></div></div><div class="gmail_extra"><br><div class="gmail_quote">2015-01-27 10:39 GMT+01:00 Dejan Muhamedagic <span dir="ltr">&lt;<a href="mailto:dejanmm@fastmail.fm" target="_blank">dejanmm@fastmail.fm</a>&gt;</span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<div><div class="h5"><br>
On Mon, Jan 26, 2015 at 06:20:35PM +0100, Oscar Salvador wrote:<br>
&gt; Hi!<br>
&gt;<br>
&gt; I&#39;m writing here because two days ago I experienced a strange problem in my<br>
&gt; Pacemaker Cluster.<br>
&gt; Everything was working fine, till suddenly a Segfault in Nginx monitor<br>
&gt; resource happened:<br>
&gt;<br>
&gt; Jan 25 03:55:24 lb02 crmd: [9975]: notice: run_graph: ==== Transition 7551<br>
&gt; (Complete=0, Pending=0, Fired=0, Skipped=0, Incomplete=0,<br>
&gt; Source=/var/lib/pengine/pe-input-90.bz2): Complete<br>
&gt; Jan 25 03:55:24 lb02 crmd: [9975]: notice: do_state_transition: State<br>
&gt; transition S_TRANSITION_ENGINE -&gt; S_IDLE [ input=I_TE_SUCCESS<br>
&gt; cause=C_FSA_INTERNAL origin=notify_crmd ]<br>
&gt; Jan 25 04:00:08 lb02 cib: [9971]: info: cib_stats: Processed 1 operations<br>
&gt; (0.00us average, 0% utilization) in the last 10min<br>
&gt; Jan 25 04:10:24 lb02 crmd: [9975]: info: crm_timer_popped: PEngine Recheck<br>
&gt; Timer (I_PE_CALC) just popped (900000ms)<br>
&gt; Jan 25 04:10:24 lb02 crmd: [9975]: notice: do_state_transition: State<br>
&gt; transition S_IDLE -&gt; S_POLICY_ENGINE [ input=I_PE_CALC cause=C_TIMER_POPPED<br>
&gt; origin=crm_timer_popped ]<br>
&gt; Jan 25 04:10:24 lb02 crmd: [9975]: info: do_state_transition: Progressed to<br>
&gt; state S_POLICY_ENGINE after C_TIMER_POPPED<br>
&gt; Jan 25 04:10:24 lb02 pengine: [10028]: WARN: unpack_rsc_op: Processing<br>
&gt; failed op Ldirector-rsc_last_failure_0 on lb02: not running (7)<br>
&gt; Jan 25 04:10:24 lb02 pengine: [10028]: notice: common_apply_stickiness:<br>
&gt; Ldirector-rsc can fail 999997 more times on lb02 before being forced off<br>
&gt; Jan 25 04:10:24 lb02 crmd: [9975]: notice: do_state_transition: State<br>
&gt; transition S_POLICY_ENGINE -&gt; S_TRANSITION_ENGINE [ input=I_PE_SUCCESS<br>
&gt; cause=C_IPC_MESSAGE origin=handle_response ]<br>
&gt; Jan 25 04:10:24 lb02 pengine: [10028]: notice: process_pe_message:<br>
&gt; Transition 7552: PEngine Input stored in: /var/lib/pengine/pe-input-90.bz2<br>
&gt; Jan 25 04:10:24 lb02 crmd: [9975]: info: do_te_invoke: Processing graph<br>
&gt; 7552 (ref=pe_calc-dc-1422155424-7644) derived from<br>
&gt; /var/lib/pengine/pe-input-90.bz2<br>
&gt; Jan 25 04:10:24 lb02 crmd: [9975]: notice: run_graph: ==== Transition 7552<br>
&gt; (Complete=0, Pending=0, Fired=0, Skipped=0, Incomplete=0,<br>
&gt; Source=/var/lib/pengine/pe-input-90.bz2): Complete<br>
&gt; Jan 25 04:10:24 lb02 crmd: [9975]: notice: do_state_transition: State<br>
&gt; transition S_TRANSITION_ENGINE -&gt; S_IDLE [ input=I_TE_SUCCESS<br>
&gt; cause=C_FSA_INTERNAL origin=notify_crmd ]<br>
&gt;<br>
&gt;<br>
&gt; Jan 25 04:10:30 lb02 lrmd: [9972]: info: RA output:<br>
&gt; (Nginx-rsc:monitor:stderr) Segmentation fault   ******* here it starts<br>
<br>
</div></div>What exactly did segfault? Do you have a core dump to examine?<br>
<span class=""><br>
&gt; As you can see, the last line.<br>
&gt; And then:<br>
&gt;<br>
&gt; Jan 25 04:10:30 lb02 lrmd: [9972]: info: RA output:<br>
&gt; (Nginx-rsc:monitor:stderr) Killed<br>
&gt; /usr/lib/ocf/resource.d//heartbeat/nginx: 910:<br>
&gt; /usr/lib/ocf/resource.d//heartbeat/nginx: Cannot fork<br>
<br>
</span>This could be related to the segfault, or due to other serious<br>
system error.<br>
<div><div class="h5"><br>
&gt; I guess here Nginx was killed.<br>
&gt;<br>
&gt; And then I have some others errors till Pacemaker decide to move the<br>
&gt; resources to the node:<br>
&gt;<br>
&gt; Jan 25 04:10:30 lb02 crmd: [9975]: info: process_lrm_event: LRM operation<br>
&gt; Nginx-rsc_monitor_10000 (call=52, rc=2, cib-update=7633, confirmed=false)<br>
&gt; invalid parameter<br>
&gt; Jan 25 04:10:30 lb02 crmd: [9975]: info: process_graph_event: Detected<br>
&gt; action Nginx-rsc_monitor_10000 from a different transition: 5739 vs. 7552<br>
&gt; Jan 25 04:10:30 lb02 crmd: [9975]: info: abort_transition_graph:<br>
&gt; process_graph_event:476 - Triggered transition abort (complete=1,<br>
&gt; tag=lrm_rsc_op, id=Nginx-rsc_last_failure_0,<br>
&gt; magic=0:2;4:5739:0:42d1ed53-9686-4174-84e7-d2c230ed8832, cib=<br>
&gt; 3.14.40) : Old event<br>
&gt; Jan 25 04:10:30 lb02 crmd: [9975]: WARN: update_failcount: Updating<br>
&gt; failcount for Nginx-rsc on lb02 after failed monitor: rc=2 (update=value++,<br>
&gt; time=1422155430)<br>
&gt; Jan 25 04:10:30 lb02 crmd: [9975]: notice: do_state_transition: State<br>
&gt; transition S_IDLE -&gt; S_POLICY_ENGINE [ input=I_PE_CALC cause=C_FSA_INTERNAL<br>
&gt; origin=abort_transition_graph ]<br>
&gt; Jan 25 04:10:30 lb02 attrd: [9974]: info: log-rotate detected on logfile<br>
&gt; /var/log/ha-log<br>
&gt; Jan 25 04:10:30 lb02 attrd: [9974]: notice: attrd_trigger_update: Sending<br>
&gt; flush op to all hosts for: fail-count-Nginx-rsc (1)<br>
&gt; Jan 25 04:10:30 lb02 pengine: [10028]: ERROR: unpack_rsc_op: Preventing<br>
&gt; Nginx-rsc from re-starting on lb02: operation monitor failed &#39;invalid<br>
&gt; parameter&#39; (rc=2)<br>
&gt; Jan 25 04:10:30 lb02 pengine: [10028]: WARN: unpack_rsc_op: Processing<br>
&gt; failed op Nginx-rsc_last_failure_0 on lb02: invalid parameter (2)<br>
&gt; Jan 25 04:10:30 lb02 pengine: [10028]: WARN: unpack_rsc_op: Processing<br>
&gt; failed op Ldirector-rsc_last_failure_0 on lb02: not running (7)<br>
&gt; Jan 25 04:10:30 lb02 pengine: [10028]: notice: common_apply_stickiness:<br>
&gt; Ldirector-rsc can fail 999997 more times on lb02 before being forced off<br>
&gt; Jan 25 04:10:30 lb02 pengine: [10028]: notice: LogActions: Stop<br>
&gt;  IP-rsc_mysql (lb02)<br>
&gt; Jan 25 04:10:30 lb02 pengine: [10028]: notice: LogActions: Stop<br>
&gt;  IP-rsc_nginx (lb02)<br>
&gt; Jan 25 04:10:30 lb02 pengine: [10028]: notice: LogActions: Stop<br>
&gt;  IP-rsc_nginx6        (lb02)<br>
&gt; Jan 25 04:10:30 lb02 pengine: [10028]: notice: LogActions: Stop<br>
&gt;  IP-rsc_elasticsearch (lb02)<br>
&gt; Jan 25 04:10:30 lb02 pengine: [10028]: notice: LogActions: Move<br>
&gt;  Ldirector-rsc        (Started lb02 -&gt; lb01)<br>
&gt; Jan 25 04:10:30 lb02 pengine: [10028]: notice: LogActions: Move<br>
&gt;  Nginx-rsc    (Started lb02 -&gt; lb01)<br>
&gt; Jan 25 04:10:30 lb02 attrd: [9974]: notice: attrd_perform_update: Sent<br>
&gt; update 23: fail-count-Nginx-rsc=1<br>
&gt; Jan 25 04:10:30 lb02 attrd: [9974]: notice: attrd_trigger_update: Sending<br>
&gt; flush op to all hosts for: last-failure-Nginx-rsc (1422155430)<br>
&gt;<br>
&gt; I see that Pacemaker is complaining about some errors like &quot;invalid<br>
&gt; paraemter&quot;, for example in these lines:<br>
<br>
</div></div>That error code is what the nginx RA exited with. It&#39;s unusual,<br>
but perhaps also due to the segfault.<br>
<br>
Thanks,<br>
<br>
Dejan<br>
<div class="HOEnZb"><div class="h5"><br>
&gt; Jan 25 04:10:30 lb02 crmd: [9975]: info: process_lrm_event: LRM operation<br>
&gt; Nginx-rsc_monitor_10000 (call=52, rc=2, cib-update=7633, confirmed=false)<br>
&gt; invalid parameter<br>
&gt;<br>
&gt; Jan 25 04:10:30 lb02 pengine: [10028]: ERROR: unpack_rsc_op: Preventing<br>
&gt; Nginx-rsc from re-starting on lb02: operation monitor failed &#39;invalid<br>
&gt; parameter&#39; (rc=2)<br>
&gt;<br>
&gt; It sounds(for me) like a syntax problem defining the resources, but I&#39;ve<br>
&gt; checked the confic with crm_verify and there is no error:<br>
&gt;<br>
&gt; root# (S) crm_verify -LVV<br>
&gt; root# (S)<br>
&gt;<br>
&gt; So I&#39;m just wondering why pacemaker is complaining about an invalid<br>
&gt; parameter.<br>
&gt;<br>
&gt; This is my CIB objetcs:<br>
&gt;<br>
&gt; node $id=&quot;43b2c5a1-9552-4438-962b-6e98a2dd67c7&quot; lb01<br>
&gt; node $id=&quot;68328520-68e0-42fd-9adf-062655691643&quot; lb02<br>
&gt; primitive IP-rsc_elasticsearch ocf:heartbeat:IPaddr2 \<br>
&gt; params ip=&quot;xx.xx.xx.xx&quot; nic=&quot;eth0&quot; cidr_netmask=&quot;255.255.255.224&quot;<br>
&gt; primitive IP-rsc_elasticsearch6 ocf:heartbeat:IPv6addr \<br>
&gt; params ipv6addr=&quot;xxxxxxxxxxxxxxxx&quot; \<br>
&gt; op monitor interval=&quot;10s&quot;<br>
&gt; primitive IP-rsc_mysql ocf:heartbeat:IPaddr2 \<br>
&gt; params ip=&quot;xx.xx.xx.xx&quot; nic=&quot;eth0&quot; cidr_netmask=&quot;255.255.255.224&quot;<br>
&gt; primitive IP-rsc_mysql6 ocf:heartbeat:IPv6addr \<br>
&gt; params ipv6addr=&quot;xxxxxxxxxxxxxx&quot; \<br>
&gt; op monitor interval=&quot;10s&quot;<br>
&gt; primitive IP-rsc_nginx ocf:heartbeat:IPaddr2 \<br>
&gt; params ip=&quot;xx.xx.xx.xx&quot; nic=&quot;eth0&quot; cidr_netmask=&quot;255.255.255.224&quot;<br>
&gt; primitive IP-rsc_nginx6 ocf:heartbeat:IPv6addr \<br>
&gt; params ipv6addr=&quot;xxxxxxxxxxxxxx&quot; \<br>
&gt; op monitor interval=&quot;10s&quot;<br>
&gt; primitive Ldirector-rsc ocf:heartbeat:ldirectord \<br>
&gt; op monitor interval=&quot;10s&quot; timeout=&quot;30s&quot;<br>
&gt; primitive Nginx-rsc ocf:heartbeat:nginx \<br>
&gt; op monitor interval=&quot;10s&quot; timeout=&quot;30s&quot;<br>
&gt; location cli-standby-IP-rsc_elasticsearch6 IP-rsc_elasticsearch6 \<br>
&gt; rule $id=&quot;cli-standby-rule-IP-rsc_elasticsearch6&quot; -inf: #uname eq lb01<br>
&gt; location cli-standby-IP-rsc_mysql IP-rsc_mysql \<br>
&gt; rule $id=&quot;cli-standby-rule-IP-rsc_mysql&quot; -inf: #uname eq lb01<br>
&gt; location cli-standby-IP-rsc_mysql6 IP-rsc_mysql6 \<br>
&gt; rule $id=&quot;cli-standby-rule-IP-rsc_mysql6&quot; -inf: #uname eq lb01<br>
&gt; location cli-standby-IP-rsc_nginx IP-rsc_nginx \<br>
&gt; rule $id=&quot;cli-standby-rule-IP-rsc_nginx&quot; -inf: #uname eq lb01<br>
&gt; location cli-standby-IP-rsc_nginx6 IP-rsc_nginx6 \<br>
&gt; rule $id=&quot;cli-standby-rule-IP-rsc_nginx6&quot; -inf: #uname eq lb01<br>
&gt; colocation hcu_c inf: Nginx-rsc Ldirector-rsc IP-rsc_mysql IP-rsc_nginx<br>
&gt; IP-rsc_nginx6 IP-rsc_elasticsearch<br>
&gt; order hcu_o inf: IP-rsc_nginx IP-rsc_nginx6 IP-rsc_mysql Ldirector-rsc<br>
&gt; Nginx-rsc IP-rsc_elasticsearch<br>
&gt; property $id=&quot;cib-bootstrap-options&quot; \<br>
&gt; dc-version=&quot;1.1.7-ee0730e13d124c3d58f00016c3376a1de5323cff&quot; \<br>
&gt; cluster-infrastructure=&quot;Heartbeat&quot; \<br>
&gt; stonith-enabled=&quot;false<br>
&gt;<br>
&gt;<br>
&gt; Do you have some hints that I can follow?<br>
&gt;<br>
&gt; Thanks in advance!<br>
&gt;<br>
&gt; Oscar<br>
<br>
</div></div><div class="HOEnZb"><div class="h5">&gt; _______________________________________________<br>
&gt; Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>
&gt; <a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
&gt;<br>
&gt; Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
&gt; Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br>
<br>
<br>
_______________________________________________<br>
Pacemaker mailing list: <a href="mailto:Pacemaker@oss.clusterlabs.org">Pacemaker@oss.clusterlabs.org</a><br>
<a href="http://oss.clusterlabs.org/mailman/listinfo/pacemaker" target="_blank">http://oss.clusterlabs.org/mailman/listinfo/pacemaker</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://bugs.clusterlabs.org" target="_blank">http://bugs.clusterlabs.org</a><br>
</div></div></blockquote></div><br></div>