1.9 KiB
1.9 KiB
【WMS-UTR项目】pcap-tsgx01出现TSG-OS node disk pressure告警
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-1443 | 2024-08-29T15:52:23.000+0800 | 宋延超 | 已关闭 |
当地时间8月26日出现了TSG-OS node disk pressure告警,附件为告警信息与对应的监控和日志songyanchao commented on 2024-08-29T16:58:36.672+0800:
问题定位过程:
- 通过查看 NZ,发现此设备的 Firewall 容器启动后,磁盘占用率会缓慢上升。
- 使用 du 命令排查后,定位到 /data/var/lib/rancher/k3s/agent/containerd/io.containerd,snapshotter.vl.overlayfs/snapshots 目录,该目录的磁盘占用量以每秒 1M 的速度增长。
- 在 k3s 中,snapshots 目录通常用于存储 Kubernetes 集群的备份快照。进一步使用 du 命令定位,发现 Firewall 容器对应的文件夹的磁盘使用量持续增加。
- 进入 Firewall 容器对应的文件夹,最终在 tmp 目录中发现了多个 jeprof 文件。
- 同时通过 kubectl 命令进入 Firewall 容器内部的 /tmp 目录,也发现了多个 jeprof 文件,并且使用 du 命令观察到磁盘使用量以每秒 1M 的速率增加。
- 与[~yangwei]通后,检查 Firewall 的 hotfix 文件,发现启用了下图所示的配置,导致磁盘占用增长。
- 该配置已被注释,并重新启动了 Firewall 容器。经过一段时间观察,磁盘使用率未再出现明显增长。 !screenshot-5.png|thumbnail! !screenshot-1.png|thumbnail! !screenshot-2.png|thumbnail! !screenshot-3.png|thumbnail! !screenshot-4.png|thumbnail!
Attachments
62023/alert-message-2024-08-29+06-48-37.xlsx
62024/pcap-tsgx01+(3).html
62026/screenshot-1.png
62027/screenshot-2.png
62028/screenshot-3.png
62029/screenshot-4.png
62030/screenshot-5.png
62025/sosreport-pcap-tsgx01-20240829114546.tar.xz