Files
geedge-jira/md/OMPUB-426.md
2025-09-14 21:52:36 +00:00

65 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 【K现场】国家中心部分组件宕机
| ID | Creation Date | Assignee | Status |
|----|----------------|----------|--------|
| OMPUB-426 | 2022-03-30T15:26:00.000+0800 | 戚岱杰 | 已关闭 |
---
于2022-03-24日在K现场国家中心发现以下问题
# Zookeepr宕机。
# Kafka宕机。
# 界面无法查询到日志详情Dashboard及统计数据页面查询报错。**qidaijie** commented on *2022-03-30T15:30:10.660+0800*:
经过排查:
# Kafka宕机原因为国家中心5台Zookeeper节点全部宕机导致的。
临时处理方式重启恢复了Zookeeper节点随后Kafka和界面日志详情恢复正常。
Zookeeper宕机具体原因需要导出现场日志文件及重启记录进行详细排查。
---
**qidaijie** commented on *2022-03-30T15:56:44.697+0800*:
界面无统计数据问题原因:
# Druid集群historical节点挂掉无法加载数据
# Druid集群异常是由rc3版本计算topN hot datasource未添加数据清除策略导致segment堆积从而使得historical节点加载元数据过多内存溢出无法正常启动。
临时处理方式手动删除缓存的segment添加数据清除策略。
解决方案:添加数据清除策略后,调度任务周期性地执行数据删除指令。
---
**qidaijie** commented on *2022-04-07T14:10:11.543+0800*:
通过拍照的日志查看Zookeeper报错原因为内存溢出因日志文件无法导出重启后无再次宕机情况后续持续追踪。
---
**qidaijie** commented on *2022-04-07T14:12:53.539+0800*:
Druid后续使用脚本对任务segments进行压缩目前集群状态正常界面查询无异常。
---
## Attachments
**26657/Zookeeper节点状态-异常.jpg**
---