Files
geedge-jira/md/OMPUB-1375.md
2025-09-14 22:26:17 +00:00

1.7 KiB
Raw Blame History

【WMS UTR】Ignite集群故障未自动恢复问题定位

ID Creation Date Assignee Status
OMPUB-1375 2024-07-17T11:16:45.000+0800 雷吉蒙 已关闭

No description


leijimeng commented on 2024-07-18T11:35:18.142+0800:

信息港环境复现情况: 在只有两个ignite节点时同时宕机或者重启会导致集群不可用

现场ignite集群目前是只有两个节点由于链路中断两个节点无法相互连接且无法连接到Zookeeper导致节点重启后集群不可用需要手动初始化集群。

需要进一步确认一台服务器部署两个ignite节点会不会出现此问题以及资源是否充足


leijimeng commented on 2024-07-22T10:35:24.089+0800:

方案一: 目前看现场ignite节点占用资源比较少一台服务器可以部署两个节点  在信息港环境进行测试一台服务器部署多个ignite节点不会出现上诉情况  方案二: 在之前的ignite分区检测脚本的基础上加上集群状态检测如果集群重启后未初始化脚本自动对集群进行初始化  目前在不影响当前业务的情况下,采用方案二,并对相关延迟情况做了监控


Attachments

Attachment: Ignite_error.png Ignite_error.png

Attachment: Ignite_log.png Ignite_log.png

Attachment: IgniteNode_monitor.png IgniteNode_monitor.png