Files
geedge-jira/md/OMPUB-934.md
2025-09-14 21:52:36 +00:00

116 lines
2.8 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 【E21现场】BOLE-IGW第二块NPB/10.225.11.2出现丢包告警
| ID | Creation Date | Assignee | Status |
|----|----------------|----------|--------|
| OMPUB-934 | 2023-05-26T22:27:47.000+0800 | 杨威 | 已关闭 |
---
Bole-IGW第二块NPB板卡出现丢包告警持续时长1小时20分钟后自动恢复。
查看各线程负载流量正常丢包线程负载相对较低问题节点新建TCP会话数量相较于正常节点多一个数量级。
**yangwei** commented on *2023-05-29T15:42:39.251+0800*:
!image-2023-05-29-15-25-00-443.png|width=463,height=480!
现场提供的monit_stream截图可以看到第28个包处理线程收到的包数量RxPts+RxDrops≈11K远小于其他处理线程并且该处理线程的TxPkts计数为0。
第2和28个处理线程丢包数量3.02K+8.45K=11.47K与NZ监控输出的异常时段5-20K级别丢包数量相符。
推测故障现场主要丢包原因为第28个包处理线程工作状态异常导致。
 
由于故障集中在单个包处理线程目前根据现场发回的其他TSG相关日志信息无法有效辅助定位出更具体的原因如再出现类似现场请在已提供的信息前提下补充提供以下信息
1、NPB上CPU和内存使用情况如top -1的截图
2、monit_device的结果截图
---
**heyong** commented on *2023-05-29T16:16:41.218+0800*:
收到,后续若出现相同告警,会按照要求进一步完善信息。
本次异常出现时:
有检查monit_device因未发现丢包现象所以当时未截图留存。
有检查Top-1 ,因异常线程资源占用与其他线程基本一致,所以当时未截图留存。
出现异常线程不固定不仅出现在28和2处理线程见下图的线程19、20、25、40 !线程负载-2.png!
 
---
**songlongkun** commented on *2023-06-27T20:37:27.500+0800*:
近10日内BOLE-IGW第二块NPB/10.225.11.2分别在2023-06-21 08:42:16、2023-06-21 12:04:16 和 2023-06-23 09:59:16 分出现过一次
tsg_9140_packet_io_rxdrop告警告警均在持续1m30s后自动消除。
---
**yangwei** commented on *2023-07-03T11:25:08.715+0800*:
麻烦持续观察定期补充现场现象并同步观察其他站点的NPB是否有类似现象
现场需要收集的指标见[https://docs.geedge.net/pages/viewpage.action?pageId=81101053]
 
---
**liuyang** commented on *2023-11-02T10:36:52.200+0800*:
系统升级至TSG23.07版本关闭次bug现场再次出现该问题重新提交bug
---
## Attachments
**38735/BOL-IGW-T9K001-NPB02-10.225.11.2丢包异常.rar**
---
**38748/image-2023-05-29-15-25-00-443.png**
---
**39266/monit_device.png**
---
**39267/monit_stream.png**
---
**39271/monit_stream+--per-stream.txt**
---
**38734/告警截图.jpg**
---
**38752/线程负载-2.png**
---