1.0 KiB
1.0 KiB
福建项目:泉州OLAP集群故障,没有日志入库
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-618 | 2022-09-09T17:05:41.000+0800 | 戚岱杰 | 已关闭 |
从9.5开始,泉州OLAP集群的Clickhouse数据库(192.168.10.7-10)没有新日志入库qidaijie commented on 2022-09-09T20:41:15.364+0800:
现场情况:
- 2022-09-02号02:10分开始 少了三分之一左右的日志,2022-09-05号17点左右所有日志写入失败。
问题原因:
2022-09-02 02:10:00左右 192.168.10.2 Kafka出现内存溢出异常,出现异常后Kafka处于假死状态,(Kafka还注册在集群内,客户端已感知到该节点不可用)
因现场版本为22.01,Flink许多稳定性优化未更新;导致任务感知到Kafka异常后,频繁重启。
最终在2022-09-05 17点左右任务无法自主恢复,导致了后续无日志情况。
解决方式:
- 保留现场日志后,通过手动重启10.2Kafka节点、Flink任务后恢复。