文章/答案/技术大牛

发布

社区首页 >问答首页 >起搏器自动清除失败动作

问起搏器自动清除失败动作
EN

Server Fault用户

提问于 2018-05-09 14:57:15

回答 2查看 1.9K关注 0票数 1

我已经使用Pac怪机/cor产c/ drbd创建了一个主动/被动集群，并“模拟”了Apache pkill httpd和从" failure“中恢复的active起搏器，并在执行pcs status时启动了httpd：

Failed Actions:
* apache_monitor_60000 on server1 'not running' (7): call=39, status=complete, exitreason='none',
    last-rc-change='Wed May  9 09:55:45 2018', queued=0ms, exec=0ms

为什么起搏器在成功康复后不能清除失败的动作？或者，除了手动操作之外，还有其他方法来清除失败的操作吗？

drbd

pacemaker

回答 2

Server Fault用户

发布于 2018-05-09 18:24:03

那是故意的。一些管理员，包括我自己，喜欢看到错误，以便我们知道它何时发生，并可以调查。此外，起搏器需要跟踪这些错误，以便它可以决定在哪里最好地启动一个资源。

但是，如果没有新的故障发生，起搏器有一种方法可以在指定的时间后清除故障。这就是所谓的故障超时.这可以对每个资源进行配置，但下面是如何将其指定为crm的集群范围内的默认资源。我希望pcs也会有一个方法来定义它。

crm configure rsc_defaults failure-timeout=15m

请注意，这仅在群集-重新检查间隔上进行检查，默认情况下是每15分钟检查一次。根据故障发生的具体时间，设置故障超时15米，这可能需要29分59秒才能清除。

票数 1

Server Fault用户

发布于 2022-03-30 12:23:09

您也可以手动清除错误状态(“清理”)：

crm_resource -C -r apache -N server1 -n monitor

显然，您指定了资源名称、节点和操作。

如果节点上存在局部问题，则错误状态会防止重复尝试坏节点上的操作并失败。当进行手动测试时，手动清理比某些自动清理(按要求)更自然。

经常检查集群中的错误是一个好习惯。当然，试图解决这些问题将建立一个“良好的集群”。

票数 0

页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://serverfault.com/questions/911474

复制

相似问题

问起搏器自动清除失败动作
EN

回答 2

Server Fault用户

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问起搏器自动清除失败动作EN

回答 2

Server Fault用户

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问起搏器自动清除失败动作
EN