5.4 KiB
【E21现场】NZ中部分NPB板卡“Throughput - DP1/L4”监控项数据偶尔出现中断现象
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-942 | 2023-06-10T02:47:06.000+0800 | 刘洋 | 已关闭 |
已经配合研发同事陆秋文对相关NPB信息进行查询(见附件)。
经陆秋文排查,因NPB板卡在“Throughput - DP1/L4”监控项数据出现中断时,mrzcpd驱动和sapp服务并未出现重启情况,且没有相关日志输出,该NPB的新建连接数也未曾中断。另外在NPB出现流量中断的同一时刻其他NPB的流量没有出现增长。 结合上述排查现象,陆秋文给出的结论为:初步怀疑问题原因可能为“NZ中监控流量的某个环节出现问题”。
现需要NZ组同事协助对该问题进行排查,谢谢~shizhendong commented on 2023-06-12T14:39:07.587+0800:
请按步骤进行排查,并提供排查结果。[~liuju]
-
进入 NZ -> APM/Explore 页面,输入以下表达式,自定义时间范围,点击查询 表达式1: rx_bits_total{asset="DIR-IGW-T9K001-NPB01", app="sapp4", device="eth_vf_raw"} 表达式2: ftx_bits_total{asset="DIR-IGW-T9K001-NPB01", app="sapp4", device="eth_vf_raw"} 表达式3: tx_total_len{asset="DIR-IGW-T9K001-NPB01", app="sapp4", device="eth_vf_raw"} 时间范围: 2023-06-08 22:00:05 - 2023-06-08 22:30:00
-
进入 NZ -> APM/Explore 页面,输入以下表达式,自定义时间范围,点击查询 表达式1: rx_bits_total{asset="KLT-IGW-T9K001-NPB06", app="sapp4", device="eth_vf_raw"} 表达式2: ftx_bits_total{asset="KLT-IGW-T9K001-NPB06", app="sapp4", device="eth_vf_raw"} 表达式3: tx_total_len{asset="KLT-IGW-T9K001-NPB06", app="sapp4", device="eth_vf_raw"} 时间范围: 2023-06-09 06:40:00 - 2023-06-09 07:10:00
-
进入 NZ -> APM/Explore 页面,输入以下表达式,自定义时间范围,点击查询 表达式: 与第二步一致,只改变时间范围 时间范围: 2023-06-09 11:10:00 - 2023-06-09 11:40:00
-
提供 11.3、11.4 nz-web 日志文件 路径:/var/log/nezha/nz-web/*
songlongkun commented on 2023-06-12T15:18:30.846+0800:
KLT-IGW站点NPB06板卡Throughput - DP1/L4监控项在11点21分左右出现的中断原因为:因更新了TSG-OS的某项配置,重启mrzcpd驱动而导致。
shizhendong commented on 2023-06-14T10:59:14.222+0800:
DIR-IGW 站点 NPB01 板卡 Throughput - DP1/L4 监控项 异常分析:[^DIR-IGW-T9K001-NPB01-图表异常分析.txt]
KLT-IGW 站点 NPB06 板卡 Throughput - DP1/L4 监控项 异常分析:[^KLT-IGW-T9K001-NPB06-图表异常分析.txt]
结论:
nz prometheus 组件在 2023-06-08 22:15:55 (UTC+3)时间点对 DIR-IGW 站点 NPB01 板卡采集指标数据时,该服务未提供指标数据。服务地址:10.219.11.1:9000。
nz prometheus 组件在 2023-06-09 06:59:13 (UTC+3)时间点对 KLT-IGW 站点 NPB06 板卡采集指标数据时,该服务未提供指标数据。服务地址:10.217.11.6:9000。
详细分析请查阅附件
[~songlongkun] 请查收
shizhendong commented on 2023-06-14T11:02:24.191+0800:
附件路径:相关NPB板卡NZ监控快照与程序运行情况 -> 部分出现流量中断的NPB板卡NZ监控快照 -> SHQ-IGW-T9K001-NPB07.html 该文件因快照时网络波动,导致快照文件异常,请重新快照并更新附件 [~songlongkun]
songlongkun commented on 2023-06-19T20:21:55.032+0800:
根据研发同事陆秋文的建议,目前已经将KLT-IGW站点第二块NPB板卡的Throughput - DP1/L4监控项的查询查询语句由2m修改为5m,并观察该板卡Throughput - DP1/L4监控项数据后续是否还会出现中断现象。
songlongkun commented on 2023-06-27T14:28:09.059+0800:
【E21现场】KLT-IGW NPB02(10.217.11.2)近五日(2023-06-23 09:00 至 2023-06-27 09:00)未曾出现“Throughput - DP1/L4”监控项数据中断现象。
songlongkun commented on 2023-07-03T14:49:35.868+0800:
【E21现场】KLT-IGW NPB02(10.217.11.2)近六日(2023-06-27 09:00 至 2023-07-03 09:00)中,仅在6月30号出现了一次“Throughput - DP1/L4”监控项数据中断现象,时间范围2023.06.30 16:13--2023.06.30 16:23。
songlongkun commented on 2023-07-03T16:31:41.779+0800:
根据陆秋文提供的解决方案,将“Throughput - DP1/L4”监控语句中的irate改为rate,且将时间由2m改为5m后,KLT-IGW NPB02该监控项中所有流量中断的现象消失。 目前已经对所有NPB板卡“Throughput - DP1/L4”的监控语句进行了修改,并对NPB板卡的该监控项进行查看,均无中断现象。
Attachments
Attachment: DIR-IGW-T9K001-NPB01-图表异常分析.txt
DIR-IGW-T9K001-NPB01-图表异常分析.txt
Attachment: KLT-IGW-T9K001-NPB06-图表异常分析.txt
KLT-IGW-T9K001-NPB06-图表异常分析.txt
Attachment: 相关NPB板卡NZ监控快照与程序运行情况.zip