1.5 KiB
1.5 KiB
新疆电信哪吒服务异常和Prometheus服务自行重启
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-754 | 2022-12-23T18:29:15.000+0800 | 史振东 | 已解决 |
新疆电信环境Nezha问题描述 1.开启电信NeZha服务时,72.1会突然卡住; 2.Prometheus服务会自行重启,并且开启服务时,Prometheu进程的cpu占比会特别高; cortex和loki报错日志情况如图所示。shizhendong commented on 2022-12-26T14:11:18.375+0800:
BUG 产生的原因:Prometheus wal 目录数据积压严重,造成在启动 prometheus 时进行的 Replay WAL 占用大量内存,是此问题的直接原因。
产生的现象:由于 prometheus Replay WAL 过程中占用了大量内存,导致 72.1 服务内存占满,此问题体现在服务器卡顿,大量服务异常。
如何定位:排查前,现场同事已将 nezha 相关服务 stop,于是在启动 prometheus 服务时,出现 Replaying WAL (349/452) 信息,观察内存占用情况,确认为 Prometheus 组件问题。
解决方式:将 wal 目录删除并重启 prometheus 服务解决问题。
存在的其它问题:目前 wal 目录文件数据积压问题并未确认,持续观察中。
此问题于:2022/12/23 日修复,恢复 NEZHA 系统可用。2022/12/26 日观察 NEZHA 系统 & Prometheus 服务运行均正常,内存使用情况未发现问题。
Attachments
33897/cortex报错日志-1.png
33896/loki报错日志-1.png