1.7 KiB
1.7 KiB
【K现场】国家中心部分组件宕机
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-426 | 2022-03-30T15:26:00.000+0800 | 戚岱杰 | 已关闭 |
于2022-03-24日在K现场国家中心发现以下问题:
Zookeepr宕机。
Kafka宕机。
界面无法查询到日志详情,Dashboard及统计数据页面查询报错。qidaijie commented on 2022-03-30T15:30:10.660+0800:
经过排查:
Kafka宕机原因为国家中心5台Zookeeper节点全部宕机导致的。
临时处理方式:重启恢复了Zookeeper节点,随后Kafka和界面日志详情恢复正常。
Zookeeper宕机具体原因,需要导出现场日志文件及重启记录进行详细排查。
qidaijie commented on 2022-03-30T15:56:44.697+0800:
界面无统计数据问题原因:
Druid集群historical节点挂掉,无法加载数据;
Druid集群异常是由rc3版本计算topN hot datasource未添加数据清除策略,导致segment堆积,从而使得historical节点加载元数据过多,内存溢出,无法正常启动。
临时处理方式:手动删除缓存的segment,添加数据清除策略。
解决方案:添加数据清除策略后,调度任务周期性地执行数据删除指令。
qidaijie commented on 2022-04-07T14:10:11.543+0800:
通过拍照的日志查看Zookeeper报错原因为内存溢出,因日志文件无法导出,重启后无再次宕机情况,后续持续追踪。
qidaijie commented on 2022-04-07T14:12:53.539+0800:
Druid后续使用脚本对任务segments进行压缩,目前集群状态正常;界面查询无异常。
Attachments
26657/Zookeeper节点状态-异常.jpg