116 lines
2.8 KiB
Markdown
116 lines
2.8 KiB
Markdown
# 【E21现场】BOLE-IGW第二块NPB/10.225.11.2出现丢包告警
|
||
|
||
| ID | Creation Date | Assignee | Status |
|
||
|----|----------------|----------|--------|
|
||
| OMPUB-934 | 2023-05-26T22:27:47.000+0800 | 杨威 | 已关闭 |
|
||
|
||
|
||
---
|
||
|
||
Bole-IGW第二块NPB板卡出现丢包告警,持续时长1小时20分钟后自动恢复。
|
||
查看各线程负载流量正常,丢包线程负载相对较低,问题节点新建TCP会话数量相较于正常节点多一个数量级。
|
||
|
||
**yangwei** commented on *2023-05-29T15:42:39.251+0800*:
|
||
|
||
!image-2023-05-29-15-25-00-443.png|width=463,height=480!
|
||
|
||
现场提供的monit_stream截图,可以看到第28个包处理线程收到的包数量(RxPts+RxDrops≈11K)远小于其他处理线程,并且该处理线程的TxPkts计数为0。
|
||
|
||
第2和28个处理线程丢包数量(3.02K+8.45K=11.47K),与NZ监控输出的异常时段5-20K级别丢包数量相符。
|
||
|
||
推测故障现场,主要丢包原因为第28个包处理线程工作状态异常导致。
|
||
|
||
|
||
|
||
由于故障集中在单个包处理线程,目前根据现场发回的其他TSG相关日志信息,无法有效辅助定位出更具体的原因,如再出现类似现场,请在已提供的信息前提下,补充提供以下信息:
|
||
|
||
1、NPB上CPU和内存使用情况,如top -1的截图
|
||
|
||
2、monit_device的结果截图
|
||
|
||
|
||
|
||
---
|
||
|
||
**heyong** commented on *2023-05-29T16:16:41.218+0800*:
|
||
|
||
收到,后续若出现相同告警,会按照要求进一步完善信息。
|
||
|
||
本次异常出现时:
|
||
|
||
有检查monit_device,因未发现丢包现象,所以当时未截图留存。
|
||
|
||
有检查Top-1 ,因异常线程资源占用与其他线程基本一致,所以当时未截图留存。
|
||
|
||
另 :
|
||
|
||
出现异常线程不固定,不仅出现在28和2处理线程,见下图的线程19、20、25、40 !线程负载-2.png!
|
||
|
||
|
||
|
||
|
||
|
||
---
|
||
|
||
**songlongkun** commented on *2023-06-27T20:37:27.500+0800*:
|
||
|
||
近10日内,BOLE-IGW第二块NPB/10.225.11.2分别在2023-06-21 08:42:16、2023-06-21 12:04:16 和 2023-06-23 09:59:16 分出现过一次
|
||
tsg_9140_packet_io_rxdrop告警,告警均在持续1m30s后自动消除。
|
||
|
||
|
||
|
||
---
|
||
|
||
**yangwei** commented on *2023-07-03T11:25:08.715+0800*:
|
||
|
||
麻烦持续观察,定期补充现场现象,并同步观察其他站点的NPB是否有类似现象
|
||
|
||
现场需要收集的指标见[https://docs.geedge.net/pages/viewpage.action?pageId=81101053]
|
||
|
||
|
||
|
||
|
||
|
||
---
|
||
|
||
**liuyang** commented on *2023-11-02T10:36:52.200+0800*:
|
||
|
||
系统升级至TSG23.07版本,关闭次bug,现场再次出现该问题,重新提交bug
|
||
|
||
|
||
|
||
---
|
||
|
||
|
||
|
||
## Attachments
|
||
|
||
**38735/BOL-IGW-T9K001-NPB02-10.225.11.2丢包异常.rar**
|
||
|
||
---
|
||
|
||
**38748/image-2023-05-29-15-25-00-443.png**
|
||
|
||
---
|
||
|
||
**39266/monit_device.png**
|
||
|
||
---
|
||
|
||
**39267/monit_stream.png**
|
||
|
||
---
|
||
|
||
**39271/monit_stream+--per-stream.txt**
|
||
|
||
---
|
||
|
||
**38734/告警截图.jpg**
|
||
|
||
---
|
||
|
||
**38752/线程负载-2.png**
|
||
|
||
---
|
||
|