Files
geedge-jira/md/OMPUB-754.md
2025-09-14 21:52:36 +00:00

1.5 KiB
Raw Blame History

新疆电信哪吒服务异常和Prometheus服务自行重启

ID Creation Date Assignee Status
OMPUB-754 2022-12-23T18:29:15.000+0800 史振东 已解决

新疆电信环境Nezha问题描述 1.开启电信NeZha服务时72.1会突然卡住; 2.Prometheus服务会自行重启并且开启服务时Prometheu进程的cpu占比会特别高 cortex和loki报错日志情况如图所示。shizhendong commented on 2022-12-26T14:11:18.375+0800:

BUG 产生的原因Prometheus wal 目录数据积压严重,造成在启动 prometheus 时进行的 Replay WAL 占用大量内存,是此问题的直接原因。

产生的现象:由于 prometheus  Replay WAL 过程中占用了大量内存,导致 72.1 服务内存占满,此问题体现在服务器卡顿,大量服务异常。

如何定位:排查前,现场同事已将 nezha 相关服务 stop于是在启动 prometheus 服务时,出现 Replaying WAL (349/452) 信息,观察内存占用情况,确认为 Prometheus 组件问题。

解决方式:将 wal 目录删除并重启 prometheus 服务解决问题。

存在的其它问题:目前 wal 目录文件数据积压问题并未确认,持续观察中。

此问题于2022/12/23 日修复,恢复 NEZHA 系统可用。2022/12/26 日观察 NEZHA 系统 & Prometheus 服务运行均正常,内存使用情况未发现问题。


Attachments

33897/cortex报错日志-1.png


33896/loki报错日志-1.png