2025-09-14 21:52:36 +00:00
|
|
|
|
# 福建项目:泉州OLAP集群故障,没有日志入库
|
|
|
|
|
|
|
|
|
|
|
|
| ID | Creation Date | Assignee | Status |
|
|
|
|
|
|
|----|----------------|----------|--------|
|
|
|
|
|
|
| OMPUB-618 | 2022-09-09T17:05:41.000+0800 | 戚岱杰 | 已关闭 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
---
|
|
|
|
|
|
|
|
|
|
|
|
从9.5开始,泉州OLAP集群的Clickhouse数据库(192.168.10.7-10)没有新日志入库**qidaijie** commented on *2022-09-09T20:41:15.364+0800*:
|
|
|
|
|
|
|
|
|
|
|
|
现场情况:
|
|
|
|
|
|
* 2022-09-02号02:10分开始 少了三分之一左右的日志,2022-09-05号17点左右所有日志写入失败。
|
|
|
|
|
|
|
|
|
|
|
|
问题原因:
|
|
|
|
|
|
# 2022-09-02 02:10:00左右 192.168.10.2 Kafka出现内存溢出异常,出现异常后Kafka处于假死状态,(Kafka还注册在集群内,客户端已感知到该节点不可用)
|
|
|
|
|
|
# 因现场版本为22.01,Flink许多稳定性优化未更新;导致任务感知到Kafka异常后,频繁重启。
|
|
|
|
|
|
|
|
|
|
|
|
最终在2022-09-05 17点左右任务无法自主恢复,导致了后续无日志情况。
|
|
|
|
|
|
|
|
|
|
|
|
解决方式:
|
|
|
|
|
|
* 保留现场日志后,通过手动重启10.2Kafka节点、Flink任务后恢复。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2025-09-14 22:26:17 +00:00
|
|
|
|
# Attachments
|
2025-09-14 21:52:36 +00:00
|
|
|
|
|