Files
geedge-jira/md/OMPUB-942.md
2025-09-14 21:52:36 +00:00

129 lines
4.9 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 【E21现场】NZ中部分NPB板卡“Throughput - DP1/L4”监控项数据偶尔出现中断现象
| ID | Creation Date | Assignee | Status |
|----|----------------|----------|--------|
| OMPUB-942 | 2023-06-10T02:47:06.000+0800 | 刘洋 | 已关闭 |
---
已经配合研发同事陆秋文对相关NPB信息进行查询见附件
经陆秋文排查因NPB板卡在“Throughput - DP1/L4”监控项数据出现中断时mrzcpd驱动和sapp服务并未出现重启情况且没有相关日志输出该NPB的新建连接数也未曾中断。另外在NPB出现流量中断的同一时刻其他NPB的流量没有出现增长。
结合上述排查现象陆秋文给出的结论为初步怀疑问题原因可能为“NZ中监控流量的某个环节出现问题”。
现需要NZ组同事协助对该问题进行排查谢谢~**shizhendong** commented on *2023-06-12T14:39:07.587+0800*:
请按步骤进行排查,并提供排查结果。[~liuju] 
1. 进入 NZ -> APM/Explore 页面,输入以下表达式,自定义时间范围,点击查询
表达式1:     rx_bits_total\{asset="DIR-IGW-T9K001-NPB01", app="sapp4", device="eth_vf_raw"}
表达式2:     ftx_bits_total\{asset="DIR-IGW-T9K001-NPB01", app="sapp4", device="eth_vf_raw"}
表达式3:     tx_total_len\{asset="DIR-IGW-T9K001-NPB01", app="sapp4", device="eth_vf_raw"}
时间范围:    2023-06-08 22:00:05 - 2023-06-08 22:30:00
2. 进入 NZ -> APM/Explore 页面,输入以下表达式,自定义时间范围,点击查询
表达式1:     rx_bits_total\{asset="KLT-IGW-T9K001-NPB06", app="sapp4", device="eth_vf_raw"}
表达式2:     ftx_bits_total\{asset="KLT-IGW-T9K001-NPB06", app="sapp4", device="eth_vf_raw"}
表达式3:     tx_total_len\{asset="KLT-IGW-T9K001-NPB06", app="sapp4", device="eth_vf_raw"}
时间范围:    2023-06-09 06:40:00 - 2023-06-09 07:10:00
3. 进入 NZ -> APM/Explore 页面,输入以下表达式,自定义时间范围,点击查询
表达式: 与第二步一致,只改变时间范围
时间范围:    2023-06-09 11:10:00 - 2023-06-09 11:40:00
4. 提供 11.3、11.4 nz-web 日志文件
路径:/var/log/nezha/nz-web/*
---
**songlongkun** commented on *2023-06-12T15:18:30.846+0800*:
KLT-IGW站点NPB06板卡Throughput - DP1/L4监控项在11点21分左右出现的中断原因为因更新了TSG-OS的某项配置重启mrzcpd驱动而导致。
---
**shizhendong** commented on *2023-06-14T10:59:14.222+0800*:
DIR-IGW 站点 NPB01 板卡 Throughput - DP1/L4 监控项 异常分析:[^DIR-IGW-T9K001-NPB01-图表异常分析.txt]
KLT-IGW 站点 NPB06 板卡 Throughput - DP1/L4 监控项 异常分析:[^KLT-IGW-T9K001-NPB06-图表异常分析.txt]
结论:
# nz prometheus 组件在 2023-06-08 22:15:55 UTC+3时间点对 DIR-IGW 站点 NPB01 板卡采集指标数据时该服务未提供指标数据。服务地址10.219.11.1:9000。
# nz prometheus 组件在 2023-06-09 06:59:13 UTC+3时间点对 KLT-IGW 站点 NPB06 板卡采集指标数据时该服务未提供指标数据。服务地址10.217.11.6:9000。
详细分析请查阅附件
[~songlongkun] 请查收
---
**shizhendong** commented on *2023-06-14T11:02:24.191+0800*:
附件路径相关NPB板卡NZ监控快照与程序运行情况 -> 部分出现流量中断的NPB板卡NZ监控快照 -> SHQ-IGW-T9K001-NPB07.html
该文件因快照时网络波动,导致快照文件异常,请重新快照并更新附件 [~songlongkun] 
---
**songlongkun** commented on *2023-06-19T20:21:55.032+0800*:
根据研发同事陆秋文的建议目前已经将KLT-IGW站点第二块NPB板卡的Throughput - DP1/L4监控项的查询查询语句由2m修改为5m并观察该板卡Throughput - DP1/L4监控项数据后续是否还会出现中断现象。
---
**songlongkun** commented on *2023-06-27T14:28:09.059+0800*:
【E21现场】KLT-IGW NPB0210.217.11.2近五日2023-06-23 09:00 至 2023-06-27 09:00未曾出现“Throughput - DP1/L4”监控项数据中断现象。
---
**songlongkun** commented on *2023-07-03T14:49:35.868+0800*:
【E21现场】KLT-IGW NPB0210.217.11.2近六日2023-06-27 09:00 至 2023-07-03 09:00仅在6月30号出现了一次“Throughput - DP1/L4”监控项数据中断现象时间范围2023.06.30 16:13--2023.06.30 16:23。
---
**songlongkun** commented on *2023-07-03T16:31:41.779+0800*:
根据陆秋文提供的解决方案将“Throughput - DP1/L4”监控语句中的irate改为rate且将时间由2m改为5m后KLT-IGW NPB02该监控项中所有流量中断的现象消失。
目前已经对所有NPB板卡“Throughput - DP1/L4”的监控语句进行了修改并对NPB板卡的该监控项进行查看均无中断现象。
---
## Attachments
**39360/DIR-IGW-T9K001-NPB01-图表异常分析.txt**
---
**39361/KLT-IGW-T9K001-NPB06-图表异常分析.txt**
---
**39223/相关NPB板卡NZ监控快照与程序运行情况.zip**
---