我已经使用Pac怪机/cor产c/ drbd创建了一个主动/被动集群,并“模拟”了Apache pkill httpd和从" failure“中恢复的active起搏器,并在执行pcs status时启动了httpd:
Failed Actions:
* apache_monitor_60000 on server1 'not running' (7): call=39, status=complete, exitreason='none',
last-rc-change='Wed May 9 09:55:45 2018', queued=0ms, exec=0ms为什么起搏器在成功康复后不能清除失败的动作?或者,除了手动操作之外,还有其他方法来清除失败的操作吗?
发布于 2018-05-09 18:24:03
那是故意的。一些管理员,包括我自己,喜欢看到错误,以便我们知道它何时发生,并可以调查。此外,起搏器需要跟踪这些错误,以便它可以决定在哪里最好地启动一个资源。
但是,如果没有新的故障发生,起搏器有一种方法可以在指定的时间后清除故障。这就是所谓的故障超时.这可以对每个资源进行配置,但下面是如何将其指定为crm的集群范围内的默认资源。我希望pcs也会有一个方法来定义它。
crm configure rsc_defaults failure-timeout=15m请注意,这仅在群集-重新检查间隔上进行检查,默认情况下是每15分钟检查一次。根据故障发生的具体时间,设置故障超时15米,这可能需要29分59秒才能清除。
发布于 2022-03-30 12:23:09
您也可以手动清除错误状态(“清理”):
crm_resource -C -r apache -N server1 -n monitor
显然,您指定了资源名称、节点和操作。
如果节点上存在局部问题,则错误状态会防止重复尝试坏节点上的操作并失败。当进行手动测试时,手动清理比某些自动清理(按要求)更自然。
经常检查集群中的错误是一个好习惯。当然,试图解决这些问题将建立一个“良好的集群”。
https://serverfault.com/questions/911474
复制相似问题