Files
geedge-jira/md/OMPUB-934.md
2025-09-14 22:27:11 +00:00

3.7 KiB
Raw Permalink Blame History

【E21现场】BOLE-IGW第二块NPB/10.225.11.2出现丢包告警

ID Creation Date Assignee Status
OMPUB-934 2023-05-26T22:27:47.000+0800 杨威 已关闭

Bole-IGW第二块NPB板卡出现丢包告警持续时长1小时20分钟后自动恢复。 查看各线程负载流量正常丢包线程负载相对较低问题节点新建TCP会话数量相较于正常节点多一个数量级。

yangwei commented on 2023-05-29T15:42:39.251+0800:

!image-2023-05-29-15-25-00-443.png|width=463,height=480!

现场提供的monit_stream截图可以看到第28个包处理线程收到的包数量RxPts+RxDrops≈11K远小于其他处理线程并且该处理线程的TxPkts计数为0。

第2和28个处理线程丢包数量3.02K+8.45K=11.47K与NZ监控输出的异常时段5-20K级别丢包数量相符。

推测故障现场主要丢包原因为第28个包处理线程工作状态异常导致。

 

由于故障集中在单个包处理线程目前根据现场发回的其他TSG相关日志信息无法有效辅助定位出更具体的原因如再出现类似现场请在已提供的信息前提下补充提供以下信息

1、NPB上CPU和内存使用情况如top -1的截图

2、monit_device的结果截图


heyong commented on 2023-05-29T16:16:41.218+0800:

收到,后续若出现相同告警,会按照要求进一步完善信息。

本次异常出现时:

有检查monit_device因未发现丢包现象所以当时未截图留存。

有检查Top-1 ,因异常线程资源占用与其他线程基本一致,所以当时未截图留存。

出现异常线程不固定不仅出现在28和2处理线程见下图的线程19、20、25、40 !线程负载-2.png!

 


songlongkun commented on 2023-06-27T20:37:27.500+0800:

近10日内BOLE-IGW第二块NPB/10.225.11.2分别在2023-06-21 08:42:16、2023-06-21 12:04:16 和 2023-06-23 09:59:16 分出现过一次 tsg_9140_packet_io_rxdrop告警告警均在持续1m30s后自动消除。


yangwei commented on 2023-07-03T11:25:08.715+0800:

麻烦持续观察定期补充现场现象并同步观察其他站点的NPB是否有类似现象

现场需要收集的指标见[https://docs.geedge.net/pages/viewpage.action?pageId=81101053]

 


liuyang commented on 2023-11-02T10:36:52.200+0800:

系统升级至TSG23.07版本关闭次bug现场再次出现该问题重新提交bug


Attachments

Attachment: BOL-IGW-T9K001-NPB02-10.225.11.2丢包异常.rar

BOL-IGW-T9K001-NPB02-10.225.11.2丢包异常.rar

Attachment: image-2023-05-29-15-25-00-443.png

image-2023-05-29-15-25-00-443.png

Attachment: monit_device.png

monit_device.png

Attachment: monit_stream.png

monit_stream.png

Attachment: monit_stream+--per-stream.txt

monit_stream+--per-stream.txt

Attachment: 告警截图.jpg

告警截图.jpg

Attachment: 线程负载-2.png

线程负载-2.png