2.5 KiB
2.5 KiB
BOL-IGW站点多台NPB设备产生TSG-OS container restart告警
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-1446 | 2024-09-02T20:06:19.000+0800 | 杨威 | 开放 |
No description
yangwei commented on 2024-09-03T11:20:14.754+0800:
现场
- Bole-IGW两组共计10个NPB,除Bole-IGW T9K02 NPB05外,其余所有traffic_engine均在9月1日00:40~00:42之间出现重启,触发现场为marsio报no mbuf
分析
- 检查触发重启的NPB日志 ** firewall进程在00:42均出现CPU使用超过99%的告警,范围为所有包处理核
!image-2024-09-03-10-45-22-623.png|width=536,height=179! * ** 未触发重启的NPB05,在同一时刻也有上述CPU使用超99%的告警,持续2s后消失,推测该NPB当时剩余mbuf较其他节点稍多,因此未触发marsio的no mbuf,同时该NPB也并未触发死锁检测告警。 ** 由于firewall所有包处理线程CPU使用率接近100%,导致未及时处理marsio缓冲队列中的mbuf,大部分NPB在1s内触发marsio no mbuf告警
- 检查未重启的NPB监控 ** 重启时段为流量低谷期,在00:41左右明显出现udp新建上涨,同时monitor命中也从每秒100~300突增至9k+
!image-2024-09-03-11-03-22-597.png|width=389,height=266!!image-2024-09-03-11-07-07-174.png|width=393,height=277!
结论
- 综上,根据现场的日志和监控,推测重启的原因为9.1 00:41时刻,Bole-IGW站点所有NPB收到突增的UDP流量,同时大量命中monitor策略,所有处理线程CPU使用超过99%,触发marsio no mbuf告警导致所有pod重启。
问题
- 突发流量持续时间较短(日志显示约1~2s),除NPB05外,其余NPB未到达overload protection最小检测周期1s即已触发marsio no mbuf,firewall需要考虑调整过载保护的检测周期至更细粒度。
- 考虑增加对monitor策略命中速率的限制
Attachments
Attachment: image-2024-09-03-10-45-22-623.png
Attachment: image-2024-09-03-11-03-22-597.png
Attachment: image-2024-09-03-11-07-07-174.png


