Files
geedge-jira/md/OMPUB-942.md
2025-09-14 22:27:11 +00:00

5.4 KiB
Raw Permalink Blame History

【E21现场】NZ中部分NPB板卡“Throughput - DP1/L4”监控项数据偶尔出现中断现象

ID Creation Date Assignee Status
OMPUB-942 2023-06-10T02:47:06.000+0800 刘洋 已关闭

已经配合研发同事陆秋文对相关NPB信息进行查询见附件

经陆秋文排查因NPB板卡在“Throughput - DP1/L4”监控项数据出现中断时mrzcpd驱动和sapp服务并未出现重启情况且没有相关日志输出该NPB的新建连接数也未曾中断。另外在NPB出现流量中断的同一时刻其他NPB的流量没有出现增长。 结合上述排查现象陆秋文给出的结论为初步怀疑问题原因可能为“NZ中监控流量的某个环节出现问题”。

现需要NZ组同事协助对该问题进行排查谢谢~shizhendong commented on 2023-06-12T14:39:07.587+0800:

请按步骤进行排查,并提供排查结果。[~liuju] 

  1. 进入 NZ -> APM/Explore 页面,输入以下表达式,自定义时间范围,点击查询 表达式1:     rx_bits_total{asset="DIR-IGW-T9K001-NPB01", app="sapp4", device="eth_vf_raw"} 表达式2:     ftx_bits_total{asset="DIR-IGW-T9K001-NPB01", app="sapp4", device="eth_vf_raw"} 表达式3:     tx_total_len{asset="DIR-IGW-T9K001-NPB01", app="sapp4", device="eth_vf_raw"} 时间范围:    2023-06-08 22:00:05 - 2023-06-08 22:30:00

  2. 进入 NZ -> APM/Explore 页面,输入以下表达式,自定义时间范围,点击查询 表达式1:     rx_bits_total{asset="KLT-IGW-T9K001-NPB06", app="sapp4", device="eth_vf_raw"} 表达式2:     ftx_bits_total{asset="KLT-IGW-T9K001-NPB06", app="sapp4", device="eth_vf_raw"} 表达式3:     tx_total_len{asset="KLT-IGW-T9K001-NPB06", app="sapp4", device="eth_vf_raw"} 时间范围:    2023-06-09 06:40:00 - 2023-06-09 07:10:00

  3. 进入 NZ -> APM/Explore 页面,输入以下表达式,自定义时间范围,点击查询 表达式: 与第二步一致,只改变时间范围 时间范围:    2023-06-09 11:10:00 - 2023-06-09 11:40:00

  4. 提供 11.3、11.4 nz-web 日志文件 路径:/var/log/nezha/nz-web/*


songlongkun commented on 2023-06-12T15:18:30.846+0800:

KLT-IGW站点NPB06板卡Throughput - DP1/L4监控项在11点21分左右出现的中断原因为因更新了TSG-OS的某项配置重启mrzcpd驱动而导致。


shizhendong commented on 2023-06-14T10:59:14.222+0800:

DIR-IGW 站点 NPB01 板卡 Throughput - DP1/L4 监控项 异常分析:[^DIR-IGW-T9K001-NPB01-图表异常分析.txt]

KLT-IGW 站点 NPB06 板卡 Throughput - DP1/L4 监控项 异常分析:[^KLT-IGW-T9K001-NPB06-图表异常分析.txt]

结论:

nz prometheus 组件在 2023-06-08 22:15:55 UTC+3时间点对 DIR-IGW 站点 NPB01 板卡采集指标数据时该服务未提供指标数据。服务地址10.219.11.1:9000。

nz prometheus 组件在 2023-06-09 06:59:13 UTC+3时间点对 KLT-IGW 站点 NPB06 板卡采集指标数据时该服务未提供指标数据。服务地址10.217.11.6:9000。

详细分析请查阅附件

[~songlongkun] 请查收


shizhendong commented on 2023-06-14T11:02:24.191+0800:

附件路径相关NPB板卡NZ监控快照与程序运行情况 -> 部分出现流量中断的NPB板卡NZ监控快照 -> SHQ-IGW-T9K001-NPB07.html 该文件因快照时网络波动,导致快照文件异常,请重新快照并更新附件 [~songlongkun] 


songlongkun commented on 2023-06-19T20:21:55.032+0800:

根据研发同事陆秋文的建议目前已经将KLT-IGW站点第二块NPB板卡的Throughput - DP1/L4监控项的查询查询语句由2m修改为5m并观察该板卡Throughput - DP1/L4监控项数据后续是否还会出现中断现象。


songlongkun commented on 2023-06-27T14:28:09.059+0800:

【E21现场】KLT-IGW NPB0210.217.11.2近五日2023-06-23 09:00 至 2023-06-27 09:00未曾出现“Throughput - DP1/L4”监控项数据中断现象。


songlongkun commented on 2023-07-03T14:49:35.868+0800:

【E21现场】KLT-IGW NPB0210.217.11.2近六日2023-06-27 09:00 至 2023-07-03 09:00仅在6月30号出现了一次“Throughput - DP1/L4”监控项数据中断现象时间范围2023.06.30 16:13--2023.06.30 16:23。


songlongkun commented on 2023-07-03T16:31:41.779+0800:

根据陆秋文提供的解决方案将“Throughput - DP1/L4”监控语句中的irate改为rate且将时间由2m改为5m后KLT-IGW NPB02该监控项中所有流量中断的现象消失。 目前已经对所有NPB板卡“Throughput - DP1/L4”的监控语句进行了修改并对NPB板卡的该监控项进行查看均无中断现象。


Attachments

Attachment: DIR-IGW-T9K001-NPB01-图表异常分析.txt

DIR-IGW-T9K001-NPB01-图表异常分析.txt

Attachment: KLT-IGW-T9K001-NPB06-图表异常分析.txt

KLT-IGW-T9K001-NPB06-图表异常分析.txt

Attachment: 相关NPB板卡NZ监控快照与程序运行情况.zip

相关NPB板卡NZ监控快照与程序运行情况.zip