Files
geedge-jira/md/OMPUB-618.md
2025-09-14 22:26:17 +00:00

1.0 KiB
Raw Permalink Blame History

福建项目泉州OLAP集群故障没有日志入库

ID Creation Date Assignee Status
OMPUB-618 2022-09-09T17:05:41.000+0800 戚岱杰 已关闭

从9.5开始泉州OLAP集群的Clickhouse数据库192.168.10.7-10没有新日志入库qidaijie commented on 2022-09-09T20:41:15.364+0800:

现场情况:

  • 2022-09-02号02:10分开始 少了三分之一左右的日志2022-09-05号17点左右所有日志写入失败。

问题原因:

2022-09-02 02:10:00左右 192.168.10.2 Kafka出现内存溢出异常出现异常后Kafka处于假死状态(Kafka还注册在集群内客户端已感知到该节点不可用)

因现场版本为22.01Flink许多稳定性优化未更新导致任务感知到Kafka异常后频繁重启。

最终在2022-09-05 17点左右任务无法自主恢复导致了后续无日志情况。

解决方式:

  • 保留现场日志后通过手动重启10.2Kafka节点、Flink任务后恢复。

Attachments