3.7 KiB
【E21现场】BOLE-IGW第二块NPB/10.225.11.2出现丢包告警
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-934 | 2023-05-26T22:27:47.000+0800 | 杨威 | 已关闭 |
Bole-IGW第二块NPB板卡出现丢包告警,持续时长1小时20分钟后自动恢复。 查看各线程负载流量正常,丢包线程负载相对较低,问题节点新建TCP会话数量相较于正常节点多一个数量级。
yangwei commented on 2023-05-29T15:42:39.251+0800:
!image-2023-05-29-15-25-00-443.png|width=463,height=480!
现场提供的monit_stream截图,可以看到第28个包处理线程收到的包数量(RxPts+RxDrops≈11K)远小于其他处理线程,并且该处理线程的TxPkts计数为0。
第2和28个处理线程丢包数量(3.02K+8.45K=11.47K),与NZ监控输出的异常时段5-20K级别丢包数量相符。
推测故障现场,主要丢包原因为第28个包处理线程工作状态异常导致。
由于故障集中在单个包处理线程,目前根据现场发回的其他TSG相关日志信息,无法有效辅助定位出更具体的原因,如再出现类似现场,请在已提供的信息前提下,补充提供以下信息:
1、NPB上CPU和内存使用情况,如top -1的截图
2、monit_device的结果截图
heyong commented on 2023-05-29T16:16:41.218+0800:
收到,后续若出现相同告警,会按照要求进一步完善信息。
本次异常出现时:
有检查monit_device,因未发现丢包现象,所以当时未截图留存。
有检查Top-1 ,因异常线程资源占用与其他线程基本一致,所以当时未截图留存。
另 :
出现异常线程不固定,不仅出现在28和2处理线程,见下图的线程19、20、25、40 !线程负载-2.png!
songlongkun commented on 2023-06-27T20:37:27.500+0800:
近10日内,BOLE-IGW第二块NPB/10.225.11.2分别在2023-06-21 08:42:16、2023-06-21 12:04:16 和 2023-06-23 09:59:16 分出现过一次 tsg_9140_packet_io_rxdrop告警,告警均在持续1m30s后自动消除。
yangwei commented on 2023-07-03T11:25:08.715+0800:
麻烦持续观察,定期补充现场现象,并同步观察其他站点的NPB是否有类似现象
现场需要收集的指标见[https://docs.geedge.net/pages/viewpage.action?pageId=81101053]
liuyang commented on 2023-11-02T10:36:52.200+0800:
系统升级至TSG23.07版本,关闭次bug,现场再次出现该问题,重新提交bug
Attachments
Attachment: BOL-IGW-T9K001-NPB02-10.225.11.2丢包异常.rar
BOL-IGW-T9K001-NPB02-10.225.11.2丢包异常.rar
Attachment: image-2023-05-29-15-25-00-443.png
Attachment: monit_device.png
Attachment: monit_stream.png
Attachment: monit_stream+--per-stream.txt
Attachment: 告警截图.jpg
Attachment: 线程负载-2.png




