Files
geedge-jira/md/OMPUB-1258.md
2025-09-14 21:52:36 +00:00

117 lines
2.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 【WMS-UTR项目】出现tsg_os_node_disk_pressure告警
| ID | Creation Date | Assignee | Status |
|----|----------------|----------|--------|
| OMPUB-1258 | 2024-04-25T11:47:36.000+0800 | 付明卫 | 已关闭 |
---
在当地时间4月24日出现了tsg_os_node_disk_pressure告警附件为告警信息与对应的监控信息**caoshanfeng** commented on *2024-04-26T09:59:28.209+0800*:
当地时间4月25日再次出现tsg_os_node_disk_pressure告警 附件位告警信息与监控信息 !4月25日告警.png|thumbnail! [^4月25日pcap-tsgx03.html]
---
**fu_mingwei** commented on *2024-04-26T19:11:15.874+0800*:
北京时间2024/4/16 17点以后在pcap-tsgx03上发现sd相关pod发生重启sd redis的详细信息如下
* tsg-os-system命名空间下的所有pod信息([^tsg-os-system-pods.txt])
* sd pods log信息([^sd-redis-pod-logs.txt])
* sd pods describe信息([^sd-redis-describe-info.txt])
* sd redis info信息([^sd-redis-cli-info.txt])
* sd redis pod中的rdb文件信息(
** !sd-redis-rdb-size.png!
---
**fu_mingwei** commented on *2024-04-26T19:45:16.780+0800*:
问题原因分析:
在OS SD redis启动时同步数据过程中因网络原因导致OS SD从redis同步失败同时失败后会遗留一个temp rdb文件同时也导致SD redis container redisness指针不可用导致SD redis container重启。 以上过程不断重复会累计越来越多的temp rdb文件。 直到触发k3s diskpressure。当diskpressure出现时触发pod驱逐。当pod被驱逐后会删除pod遗留的相关文件。
问题1
为什么SD redis container重启后不删除temp rdb文件
答: SD redis container temp文件存储在empty dir卷中empty dir卷的生命周期和pod生命周期一致。当redis container重启时删除temp rdb文件。
问题2
为什么OS SD redis同步数据不成功
请跳转到https://jira.geedge.net/browse/TSG-19928查看原因。
参考文档:
* [https://github.com/kubernetes/kubernetes/issues/117924]
* https://github.com/kubernetes/kubernetes/issues/94861
* [https://stackoverflow.com/questions/54824752/two-rdb-files-in-var-lib-redis-dir]
---
**fu_mingwei** commented on *2024-04-26T19:47:05.608+0800*:
修复问题版本OS v24.02即以后版本。
该issue产生原因和[https://github.com/kubernetes/kubernetes/issues/117924]相同。
---
**caoshanfeng** commented on *2024-08-29T17:34:34.037+0800*:
已更新,观察无问题
---
## Attachments
**56244/4月24日告警信息.png**
---
**56293/4月25日pcap-tsgx03.html**
---
**56292/4月25日告警.png**
---
**56337/sd-redis-cli-info.txt**
---
**56336/sd-redis-describe-info.txt**
---
**56335/sd-redis-pod-logs.txt**
---
**56338/sd-redis-rdb-size.png**
---
**56334/tsg-os-system-pods.txt**
---
**56243/twa-tsgx05+(1).html**
---