Files
geedge-jira/md/OMPUB-942.md

132 lines
5.4 KiB
Markdown
Raw Normal View History

2025-09-14 21:52:36 +00:00
# 【E21现场】NZ中部分NPB板卡“Throughput - DP1/L4”监控项数据偶尔出现中断现象
| ID | Creation Date | Assignee | Status |
|----|----------------|----------|--------|
| OMPUB-942 | 2023-06-10T02:47:06.000+0800 | 刘洋 | 已关闭 |
---
已经配合研发同事陆秋文对相关NPB信息进行查询见附件
经陆秋文排查因NPB板卡在“Throughput - DP1/L4”监控项数据出现中断时mrzcpd驱动和sapp服务并未出现重启情况且没有相关日志输出该NPB的新建连接数也未曾中断。另外在NPB出现流量中断的同一时刻其他NPB的流量没有出现增长。
结合上述排查现象陆秋文给出的结论为初步怀疑问题原因可能为“NZ中监控流量的某个环节出现问题”。
现需要NZ组同事协助对该问题进行排查谢谢~**shizhendong** commented on *2023-06-12T14:39:07.587+0800*:
请按步骤进行排查,并提供排查结果。[~liuju] 
1. 进入 NZ -> APM/Explore 页面,输入以下表达式,自定义时间范围,点击查询
表达式1:     rx_bits_total\{asset="DIR-IGW-T9K001-NPB01", app="sapp4", device="eth_vf_raw"}
表达式2:     ftx_bits_total\{asset="DIR-IGW-T9K001-NPB01", app="sapp4", device="eth_vf_raw"}
表达式3:     tx_total_len\{asset="DIR-IGW-T9K001-NPB01", app="sapp4", device="eth_vf_raw"}
时间范围:    2023-06-08 22:00:05 - 2023-06-08 22:30:00
2. 进入 NZ -> APM/Explore 页面,输入以下表达式,自定义时间范围,点击查询
表达式1:     rx_bits_total\{asset="KLT-IGW-T9K001-NPB06", app="sapp4", device="eth_vf_raw"}
表达式2:     ftx_bits_total\{asset="KLT-IGW-T9K001-NPB06", app="sapp4", device="eth_vf_raw"}
表达式3:     tx_total_len\{asset="KLT-IGW-T9K001-NPB06", app="sapp4", device="eth_vf_raw"}
时间范围:    2023-06-09 06:40:00 - 2023-06-09 07:10:00
3. 进入 NZ -> APM/Explore 页面,输入以下表达式,自定义时间范围,点击查询
表达式: 与第二步一致,只改变时间范围
时间范围:    2023-06-09 11:10:00 - 2023-06-09 11:40:00
4. 提供 11.3、11.4 nz-web 日志文件
路径:/var/log/nezha/nz-web/*
---
**songlongkun** commented on *2023-06-12T15:18:30.846+0800*:
KLT-IGW站点NPB06板卡Throughput - DP1/L4监控项在11点21分左右出现的中断原因为因更新了TSG-OS的某项配置重启mrzcpd驱动而导致。
---
**shizhendong** commented on *2023-06-14T10:59:14.222+0800*:
DIR-IGW 站点 NPB01 板卡 Throughput - DP1/L4 监控项 异常分析:[^DIR-IGW-T9K001-NPB01-图表异常分析.txt]
KLT-IGW 站点 NPB06 板卡 Throughput - DP1/L4 监控项 异常分析:[^KLT-IGW-T9K001-NPB06-图表异常分析.txt]
结论:
# nz prometheus 组件在 2023-06-08 22:15:55 UTC+3时间点对 DIR-IGW 站点 NPB01 板卡采集指标数据时该服务未提供指标数据。服务地址10.219.11.1:9000。
# nz prometheus 组件在 2023-06-09 06:59:13 UTC+3时间点对 KLT-IGW 站点 NPB06 板卡采集指标数据时该服务未提供指标数据。服务地址10.217.11.6:9000。
详细分析请查阅附件
[~songlongkun] 请查收
---
**shizhendong** commented on *2023-06-14T11:02:24.191+0800*:
附件路径相关NPB板卡NZ监控快照与程序运行情况 -> 部分出现流量中断的NPB板卡NZ监控快照 -> SHQ-IGW-T9K001-NPB07.html
该文件因快照时网络波动,导致快照文件异常,请重新快照并更新附件 [~songlongkun] 
---
**songlongkun** commented on *2023-06-19T20:21:55.032+0800*:
根据研发同事陆秋文的建议目前已经将KLT-IGW站点第二块NPB板卡的Throughput - DP1/L4监控项的查询查询语句由2m修改为5m并观察该板卡Throughput - DP1/L4监控项数据后续是否还会出现中断现象。
---
**songlongkun** commented on *2023-06-27T14:28:09.059+0800*:
【E21现场】KLT-IGW NPB0210.217.11.2近五日2023-06-23 09:00 至 2023-06-27 09:00未曾出现“Throughput - DP1/L4”监控项数据中断现象。
---
**songlongkun** commented on *2023-07-03T14:49:35.868+0800*:
【E21现场】KLT-IGW NPB0210.217.11.2近六日2023-06-27 09:00 至 2023-07-03 09:00仅在6月30号出现了一次“Throughput - DP1/L4”监控项数据中断现象时间范围2023.06.30 16:13--2023.06.30 16:23。
---
**songlongkun** commented on *2023-07-03T16:31:41.779+0800*:
根据陆秋文提供的解决方案将“Throughput - DP1/L4”监控语句中的irate改为rate且将时间由2m改为5m后KLT-IGW NPB02该监控项中所有流量中断的现象消失。
目前已经对所有NPB板卡“Throughput - DP1/L4”的监控语句进行了修改并对NPB板卡的该监控项进行查看均无中断现象。
---
2025-09-14 22:26:17 +00:00
# Attachments
2025-09-14 21:52:36 +00:00
2025-09-14 22:26:17 +00:00
Attachment: DIR-IGW-T9K001-NPB01-图表异常分析.txt
[DIR-IGW-T9K001-NPB01-图表异常分析.txt](https://gfwleak.exec.li/admin/geedge-jira/raw/branch/master/attachment/39360/DIR-IGW-T9K001-NPB01-图表异常分析.txt)
2025-09-14 21:52:36 +00:00
2025-09-14 22:26:17 +00:00
Attachment: KLT-IGW-T9K001-NPB06-图表异常分析.txt
[KLT-IGW-T9K001-NPB06-图表异常分析.txt](https://gfwleak.exec.li/admin/geedge-jira/raw/branch/master/attachment/39361/KLT-IGW-T9K001-NPB06-图表异常分析.txt)
Attachment: 相关NPB板卡NZ监控快照与程序运行情况.zip
[相关NPB板卡NZ监控快照与程序运行情况.zip](https://gfwleak.exec.li/admin/geedge-jira/raw/branch/master/attachment/39223/相关NPB板卡NZ监控快照与程序运行情况.zip)
2025-09-14 21:52:36 +00:00