Files
geedge-jira/md/OMPUB-1443.md

62 lines
1.9 KiB
Markdown
Raw Normal View History

2025-09-14 21:52:36 +00:00
# 【WMS-UTR项目】pcap-tsgx01出现TSG-OS node disk pressure告警
| ID | Creation Date | Assignee | Status |
|----|----------------|----------|--------|
| OMPUB-1443 | 2024-08-29T15:52:23.000+0800 | 宋延超 | 已关闭 |
---
当地时间8月26日出现了TSG-OS node disk pressure告警附件为告警信息与对应的监控和日志**songyanchao** commented on *2024-08-29T16:58:36.672+0800*:
问题定位过程:
* 通过查看 NZ发现此设备的 Firewall 容器启动后,磁盘占用率会缓慢上升。
* 使用 du 命令排查后,定位到 /data/var/lib/rancher/k3s/agent/containerd/io.containerd,snapshotter.vl.overlayfs/snapshots 目录,该目录的磁盘占用量以每秒 1M 的速度增长。
* 在 k3s 中snapshots 目录通常用于存储 Kubernetes 集群的备份快照。进一步使用 du 命令定位,发现 Firewall 容器对应的文件夹的磁盘使用量持续增加。
* 进入 Firewall 容器对应的文件夹,最终在 tmp 目录中发现了多个 jeprof 文件。
* 同时通过 kubectl 命令进入 Firewall 容器内部的 /tmp 目录,也发现了多个 jeprof 文件,并且使用 du 命令观察到磁盘使用量以每秒 1M 的速率增加。
* 与[~yangwei]通后,检查 Firewall 的 hotfix 文件,发现启用了下图所示的配置,导致磁盘占用增长。
* 该配置已被注释,并重新启动了 Firewall 容器。经过一段时间观察,磁盘使用率未再出现明显增长。
!screenshot-5.png|thumbnail! !screenshot-1.png|thumbnail! !screenshot-2.png|thumbnail! !screenshot-3.png|thumbnail! !screenshot-4.png|thumbnail!
---
## Attachments
**62023/alert-message-2024-08-29+06-48-37.xlsx**
---
**62024/pcap-tsgx01+(3).html**
---
**62026/screenshot-1.png**
---
**62027/screenshot-2.png**
---
**62028/screenshot-3.png**
---
**62029/screenshot-4.png**
---
**62030/screenshot-5.png**
---
**62025/sosreport-pcap-tsgx01-20240829114546.tar.xz**
---