62 lines
1.9 KiB
Markdown
62 lines
1.9 KiB
Markdown
|
|
# 【WMS-UTR项目】pcap-tsgx01出现TSG-OS node disk pressure告警
|
|||
|
|
|
|||
|
|
| ID | Creation Date | Assignee | Status |
|
|||
|
|
|----|----------------|----------|--------|
|
|||
|
|
| OMPUB-1443 | 2024-08-29T15:52:23.000+0800 | 宋延超 | 已关闭 |
|
|||
|
|
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
当地时间8月26日出现了TSG-OS node disk pressure告警,附件为告警信息与对应的监控和日志**songyanchao** commented on *2024-08-29T16:58:36.672+0800*:
|
|||
|
|
|
|||
|
|
问题定位过程:
|
|||
|
|
* 通过查看 NZ,发现此设备的 Firewall 容器启动后,磁盘占用率会缓慢上升。
|
|||
|
|
* 使用 du 命令排查后,定位到 /data/var/lib/rancher/k3s/agent/containerd/io.containerd,snapshotter.vl.overlayfs/snapshots 目录,该目录的磁盘占用量以每秒 1M 的速度增长。
|
|||
|
|
* 在 k3s 中,snapshots 目录通常用于存储 Kubernetes 集群的备份快照。进一步使用 du 命令定位,发现 Firewall 容器对应的文件夹的磁盘使用量持续增加。
|
|||
|
|
* 进入 Firewall 容器对应的文件夹,最终在 tmp 目录中发现了多个 jeprof 文件。
|
|||
|
|
* 同时通过 kubectl 命令进入 Firewall 容器内部的 /tmp 目录,也发现了多个 jeprof 文件,并且使用 du 命令观察到磁盘使用量以每秒 1M 的速率增加。
|
|||
|
|
* 与[~yangwei]通后,检查 Firewall 的 hotfix 文件,发现启用了下图所示的配置,导致磁盘占用增长。
|
|||
|
|
* 该配置已被注释,并重新启动了 Firewall 容器。经过一段时间观察,磁盘使用率未再出现明显增长。
|
|||
|
|
!screenshot-5.png|thumbnail! !screenshot-1.png|thumbnail! !screenshot-2.png|thumbnail! !screenshot-3.png|thumbnail! !screenshot-4.png|thumbnail!
|
|||
|
|
|
|||
|
|
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
|
|||
|
|
|
|||
|
|
## Attachments
|
|||
|
|
|
|||
|
|
**62023/alert-message-2024-08-29+06-48-37.xlsx**
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**62024/pcap-tsgx01+(3).html**
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**62026/screenshot-1.png**
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**62027/screenshot-2.png**
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**62028/screenshot-3.png**
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**62029/screenshot-4.png**
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**62030/screenshot-5.png**
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
**62025/sosreport-pcap-tsgx01-20240829114546.tar.xz**
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|