[Pacemaker] Master going into Stopped after stop operation times out

Tue Jan 15 14:20:19 UTC 2013

> Changed config is as follows:
> 
> primitive Redis ocf:PhoenixFT:RedisRA \
>   meta failure-timeout="1ms" target-role="Started" \
>   op stop interval="0" timeout="5s" on-fail="restart" \
>   op monitor interval="6s" role="Master" timeout="300s" \
>   op monitor interval="5s" role="Slave" timeout="300s"
> primitive RedisClusterIP ocf:heartbeat:IPaddr2 \
>   params ip="192.168.129.242" nic="eth3" cidr_netmask="24" \
>   op monitor interval="5s" timeout="60s" \
>   meta resource-stickiness="1" is-managed="true"
> ms MS_Redis_Server Redis \
>   meta master-max="1" master-node-max="1" clone-node-max="1" clone-max="2" 
> target-role="Master" notify="true" globally-unique="false" failure-
timeout="1ms" 
> is-managed="true"
> 
> location Redis_Prefers_Node MS_Redis_Server \
>   rule $id="Redis_Prefers_Node-rule" $role="Master" 1: #uname eq ct-node-ft-
112
> 
> colocation IP_With_Master_Redis inf: RedisClusterIP MS_Redis_Server:Master
> 
> order Redis-ordered-group inf: ( MS_Redis_Server:promote ) ( 
> RedisClusterIP:start )
> 
> Snapshot of crm_mon:
> RedisClusterIP  (ocf::heartbeat:IPaddr2):	Started ct-node-ft-112
>  Master/Slave Set: MS_Redis_Server [Redis]
>      Masters: [ ct-node-ft-112 ]
>      Stopped: [ Redis:1 ]
Need some help.
For a for Master/Slave resource, stop operation's 'on-fail' is set as "restart"
Observed behavior when stop times out for:
1) Master: when stop operation of an instance running as master times out, the 
resource is demoted and stopped. The slave instance is promoted to master. The 
failed master remains stopped.
2) Slave: when stop operation of an instance running as slave times out, the 
resource is stopped. Instance running as master remains unaffected.
3) When slave is in stopped state and Master is running (after case 1 or 2): Now 
if again stop times out for master resource then master is demoted and stopped 
and restarted on the other node(as master). So again, we have one instance 
running as master on one node and on the other node the instance remains 
stopped.

Please inform if more information is required to resolve this.