Files
geedge-jira/md/OMPUB-1443.md
2025-09-14 21:52:36 +00:00

1.9 KiB
Raw Blame History

【WMS-UTR项目】pcap-tsgx01出现TSG-OS node disk pressure告警

ID Creation Date Assignee Status
OMPUB-1443 2024-08-29T15:52:23.000+0800 宋延超 已关闭

当地时间8月26日出现了TSG-OS node disk pressure告警附件为告警信息与对应的监控和日志songyanchao commented on 2024-08-29T16:58:36.672+0800:

问题定位过程:

  • 通过查看 NZ发现此设备的 Firewall 容器启动后,磁盘占用率会缓慢上升。
  • 使用 du 命令排查后,定位到 /data/var/lib/rancher/k3s/agent/containerd/io.containerd,snapshotter.vl.overlayfs/snapshots 目录,该目录的磁盘占用量以每秒 1M 的速度增长。
  • 在 k3s 中snapshots 目录通常用于存储 Kubernetes 集群的备份快照。进一步使用 du 命令定位,发现 Firewall 容器对应的文件夹的磁盘使用量持续增加。
  • 进入 Firewall 容器对应的文件夹,最终在 tmp 目录中发现了多个 jeprof 文件。
  • 同时通过 kubectl 命令进入 Firewall 容器内部的 /tmp 目录,也发现了多个 jeprof 文件,并且使用 du 命令观察到磁盘使用量以每秒 1M 的速率增加。
  • 与[~yangwei]通后,检查 Firewall 的 hotfix 文件,发现启用了下图所示的配置,导致磁盘占用增长。
  • 该配置已被注释,并重新启动了 Firewall 容器。经过一段时间观察,磁盘使用率未再出现明显增长。 !screenshot-5.png|thumbnail! !screenshot-1.png|thumbnail! !screenshot-2.png|thumbnail! !screenshot-3.png|thumbnail! !screenshot-4.png|thumbnail!

Attachments

62023/alert-message-2024-08-29+06-48-37.xlsx


62024/pcap-tsgx01+(3).html


62026/screenshot-1.png


62027/screenshot-2.png


62028/screenshot-3.png


62029/screenshot-4.png


62030/screenshot-5.png


62025/sosreport-pcap-tsgx01-20240829114546.tar.xz