Files
geedge-jira/md/OMPUB-426.md
2025-09-14 21:52:36 +00:00

1.7 KiB
Raw Blame History

【K现场】国家中心部分组件宕机

ID Creation Date Assignee Status
OMPUB-426 2022-03-30T15:26:00.000+0800 戚岱杰 已关闭

于2022-03-24日在K现场国家中心发现以下问题

Zookeepr宕机。

Kafka宕机。

界面无法查询到日志详情Dashboard及统计数据页面查询报错。qidaijie commented on 2022-03-30T15:30:10.660+0800:

经过排查:

Kafka宕机原因为国家中心5台Zookeeper节点全部宕机导致的。

临时处理方式重启恢复了Zookeeper节点随后Kafka和界面日志详情恢复正常。

Zookeeper宕机具体原因需要导出现场日志文件及重启记录进行详细排查。


qidaijie commented on 2022-03-30T15:56:44.697+0800:

界面无统计数据问题原因:

Druid集群historical节点挂掉无法加载数据

Druid集群异常是由rc3版本计算topN hot datasource未添加数据清除策略导致segment堆积从而使得historical节点加载元数据过多内存溢出无法正常启动。

临时处理方式手动删除缓存的segment添加数据清除策略。

解决方案:添加数据清除策略后,调度任务周期性地执行数据删除指令。


qidaijie commented on 2022-04-07T14:10:11.543+0800:

通过拍照的日志查看Zookeeper报错原因为内存溢出因日志文件无法导出重启后无再次宕机情况后续持续追踪。


qidaijie commented on 2022-04-07T14:12:53.539+0800:

Druid后续使用脚本对任务segments进行压缩目前集群状态正常界面查询无异常。


Attachments

26657/Zookeeper节点状态-异常.jpg