32 lines
1.0 KiB
Markdown
32 lines
1.0 KiB
Markdown
# 福建项目:泉州OLAP集群故障,没有日志入库
|
||
|
||
| ID | Creation Date | Assignee | Status |
|
||
|----|----------------|----------|--------|
|
||
| OMPUB-618 | 2022-09-09T17:05:41.000+0800 | 戚岱杰 | 已关闭 |
|
||
|
||
|
||
---
|
||
|
||
从9.5开始,泉州OLAP集群的Clickhouse数据库(192.168.10.7-10)没有新日志入库**qidaijie** commented on *2022-09-09T20:41:15.364+0800*:
|
||
|
||
现场情况:
|
||
* 2022-09-02号02:10分开始 少了三分之一左右的日志,2022-09-05号17点左右所有日志写入失败。
|
||
|
||
问题原因:
|
||
# 2022-09-02 02:10:00左右 192.168.10.2 Kafka出现内存溢出异常,出现异常后Kafka处于假死状态,(Kafka还注册在集群内,客户端已感知到该节点不可用)
|
||
# 因现场版本为22.01,Flink许多稳定性优化未更新;导致任务感知到Kafka异常后,频繁重启。
|
||
|
||
最终在2022-09-05 17点左右任务无法自主恢复,导致了后续无日志情况。
|
||
|
||
解决方式:
|
||
* 保留现场日志后,通过手动重启10.2Kafka节点、Flink任务后恢复。
|
||
|
||
|
||
|
||
---
|
||
|
||
|
||
|
||
## Attachments
|
||
|