# BOL-IGW站点多台NPB设备产生TSG-OS  container restart告警

| ID | Creation Date | Assignee | Status |
|----|----------------|----------|--------|
| OMPUB-1446 | 2024-09-02T20:06:19.000+0800 | 杨威 | 开放 |


---

No description

---

**yangwei** commented on *2024-09-03T11:20:14.754+0800*:

现场
 * Bole-IGW两组共计10个NPB，除Bole-IGW T9K02 NPB05外，其余所有traffic_engine均在9月1日00:40~00:42之间出现重启，触发现场为marsio报no mbuf

分析
 * 检查触发重启的NPB日志
 ** firewall进程在00:42均出现CPU使用超过99%的告警，范围为所有包处理核

!image-2024-09-03-10-45-22-623.png|width=536,height=179!
 * 
 ** 未触发重启的NPB05，在同一时刻也有上述CPU使用超99%的告警，持续2s后消失，推测该NPB当时剩余mbuf较其他节点稍多，因此未触发marsio的no mbuf，同时该NPB也并未触发死锁检测告警。
 ** 由于firewall所有包处理线程CPU使用率接近100%，导致未及时处理marsio缓冲队列中的mbuf，大部分NPB在1s内触发marsio no mbuf告警
 * 检查未重启的NPB监控
 ** 重启时段为流量低谷期，在00:41左右明显出现udp新建上涨，同时monitor命中也从每秒100~300突增至9k+

!image-2024-09-03-11-03-22-597.png|width=389,height=266!!image-2024-09-03-11-07-07-174.png|width=393,height=277!

结论
 * 综上，根据现场的日志和监控，推测重启的原因为9.1 00:41时刻，Bole-IGW站点所有NPB收到突增的UDP流量，同时大量命中monitor策略，所有处理线程CPU使用超过99%，触发marsio no mbuf告警导致所有pod重启。

 
问题
 * 突发流量持续时间较短（日志显示约1~2s），除NPB05外，其余NPB未到达overload protection最小检测周期1s即已触发marsio no mbuf，firewall需要考虑调整过载保护的检测周期至更细粒度。
 * 考虑增加对monitor策略命中速率的限制

 
---


## Attachments

**62173/image-2024-09-03-10-45-22-623.png**

---

**62174/image-2024-09-03-11-03-22-597.png**

---

**62175/image-2024-09-03-11-07-07-174.png**

---