首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >起搏器自动清除失败动作

起搏器自动清除失败动作
EN

Server Fault用户
提问于 2018-05-09 14:57:15
回答 2查看 1.9K关注 0票数 1

我已经使用Pac怪机/cor产c/ drbd创建了一个主动/被动集群,并“模拟”了Apache pkill httpd和从" failure“中恢复的active起搏器,并在执行pcs status时启动了httpd:

代码语言:javascript
复制
Failed Actions:
* apache_monitor_60000 on server1 'not running' (7): call=39, status=complete, exitreason='none',
    last-rc-change='Wed May  9 09:55:45 2018', queued=0ms, exec=0ms

为什么起搏器在成功康复后不能清除失败的动作?或者,除了手动操作之外,还有其他方法来清除失败的操作吗?

EN

回答 2

Server Fault用户

发布于 2018-05-09 18:24:03

那是故意的。一些管理员,包括我自己,喜欢看到错误,以便我们知道它何时发生,并可以调查。此外,起搏器需要跟踪这些错误,以便它可以决定在哪里最好地启动一个资源。

但是,如果没有新的故障发生,起搏器有一种方法可以在指定的时间后清除故障。这就是所谓的故障超时.这可以对每个资源进行配置,但下面是如何将其指定为crm的集群范围内的默认资源。我希望pcs也会有一个方法来定义它。

代码语言:javascript
复制
crm configure rsc_defaults failure-timeout=15m

请注意,这仅在群集-重新检查间隔上进行检查,默认情况下是每15分钟检查一次。根据故障发生的具体时间,设置故障超时15米,这可能需要29分59秒才能清除。

票数 1
EN

Server Fault用户

发布于 2022-03-30 12:23:09

您也可以手动清除错误状态(“清理”):

crm_resource -C -r apache -N server1 -n monitor

显然,您指定了资源名称、节点和操作。

如果节点上存在局部问题,则错误状态会防止重复尝试坏节点上的操作并失败。当进行手动测试时,手动清理比某些自动清理(按要求)更自然。

经常检查集群中的错误是一个好习惯。当然,试图解决这些问题将建立一个“良好的集群”。

票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/911474

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档