first
This commit is contained in:
42
md/OMPUB-754.md
Normal file
42
md/OMPUB-754.md
Normal file
@@ -0,0 +1,42 @@
|
||||
# 新疆电信哪吒服务异常和Prometheus服务自行重启
|
||||
|
||||
| ID | Creation Date | Assignee | Status |
|
||||
|----|----------------|----------|--------|
|
||||
| OMPUB-754 | 2022-12-23T18:29:15.000+0800 | 史振东 | 已解决 |
|
||||
|
||||
|
||||
---
|
||||
|
||||
新疆电信环境Nezha问题描述
|
||||
1.开启电信NeZha服务时,72.1会突然卡住;
|
||||
2.Prometheus服务会自行重启,并且开启服务时,Prometheu进程的cpu占比会特别高;
|
||||
cortex和loki报错日志情况如图所示。**shizhendong** commented on *2022-12-26T14:11:18.375+0800*:
|
||||
|
||||
BUG 产生的原因:Prometheus wal 目录数据积压严重,造成在启动 prometheus 时进行的 Replay WAL 占用大量内存,是此问题的直接原因。
|
||||
|
||||
产生的现象:由于 prometheus Replay WAL 过程中占用了大量内存,导致 72.1 服务内存占满,此问题体现在服务器卡顿,大量服务异常。
|
||||
|
||||
如何定位:排查前,现场同事已将 nezha 相关服务 stop,于是在启动 prometheus 服务时,出现 Replaying WAL (349/452) 信息,观察内存占用情况,确认为 Prometheus 组件问题。
|
||||
|
||||
解决方式:将 wal 目录删除并重启 prometheus 服务解决问题。
|
||||
|
||||
存在的其它问题:目前 wal 目录文件数据积压问题并未确认,持续观察中。
|
||||
|
||||
此问题于:2022/12/23 日修复,恢复 NEZHA 系统可用。2022/12/26 日观察 NEZHA 系统 & Prometheus 服务运行均正常,内存使用情况未发现问题。
|
||||
|
||||
|
||||
|
||||
---
|
||||
|
||||
|
||||
|
||||
## Attachments
|
||||
|
||||
**33897/cortex报错日志-1.png**
|
||||
|
||||
---
|
||||
|
||||
**33896/loki报错日志-1.png**
|
||||
|
||||
---
|
||||
|
||||
Reference in New Issue
Block a user