Files
geedge-jira/md/OMPUB-1324.md
2025-09-14 21:52:36 +00:00

118 lines
3.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 【M22项目】MDY-GTG-TSGX002、MDY-GTG-TSGX003未收到流量
| ID | Creation Date | Assignee | Status |
|----|----------------|----------|--------|
| OMPUB-1324 | 2024-06-12T15:28:26.000+0800 | 陆秋文 | 已关闭 |
---
通过NZ监控发现MDY-GTG站点TSGX002、TSGX003于2024-05-17 16:44左右未收到流量 !image-2024-06-12-13-40-06-048.png|width=325,height=161!
排查过程:
1、TSGX002和TSGX003程序运行正常
!image-2024-06-12-13-41-37-344.png|width=326,height=129!
2、查看Ether Fabric与TSGX之间的保活状态显示保活正常
!image-2024-06-12-13-52-53-659.png!
3、查看RTM流量RTM实际收到的流量和实际发出的流量相近
!image-2024-06-12-13-44-25-839.png|width=333,height=163!
!image-2024-06-12-13-44-06-926.png|width=333,height=163!
4、查看SMBIO与ASW连接口流量大概只有实际流量的1/3
!image-2024-06-12-13-46-00-784.png|width=495,height=77!
5、查看ASW交换机流量大概只有实际流量的1/3与Ether Fabric发出的流量相近
!image-2024-06-12-13-46-51-391.png|width=308,height=180!
!image-2024-06-12-13-47-02-951.png|width=308,height=167!
总结上述现象流量实际进入了RTM但是SMBIO与交换机连接的端口收到的流量只有1/3**chengsiyuan** commented on *2024-06-12T15:35:28.250+0800*:
研发同事[~songyanchao]将MDY-GTG-TSGX002、TSGX003流量恢复临时修复步骤如图
!image-2024-06-12-15-34-55-983.png|width=594,height=276!
---
**songyanchao** commented on *2024-06-12T15:38:59.953+0800*:
进一步对比EF链路侧的监控和业务侧的实时流量我们怀疑EF设备中portgroup的处理流程存在问题。
1.EF设备流量情况
•EF实际收到的流量为40G左右实际发出的流量也是40G左右这说明链路侧的数据包没有被丢弃。
2.问题分析
•该EF设备的业务侧连接了三台TSG-X设备其中TSGX001收到约15G的流量带vxlan封装大约是链路侧流量的1/3而TSGX002和TSGX003没有收到任何流量。
•查看EF设备上对应portgroup的配置发现三台设备的sessionStatus均为Onlinebypass threshold设为2。
根据EF厂商提供的“保活策略说明文档”这种现象类似于“动态端口组中有端口离线2TSGX002和TSGX003且在线板卡数目小于或等于bypass threshold2值时在线端口流量保持原负载均衡方式输出失效端口流量从链路口透传”。现怀疑portgroup模块中的保活状态保活策略处理存在问题导致当前portgroup认为仅有1个设备为Online实际3个设备均为Online因此执行了“在线端口流量保持原负载均衡方式输出失效端口流量从链路口透传”策略导致TSGX001收到约15G的流量带vxlan封装大约是链路侧流量的1/3而TSGX002和TSGX003没有收到任何流量。
---
**luqiuwen** commented on *2024-06-17T17:33:47.320+0800*:
已联系供应商,供应商表示从日志和统计无法分析出原因,要求下次出现该现象时远程诊断。麻烦[~chengsiyuan] 注意观察,再出现该现象时及时联系。
---
**luqiuwen** commented on *2024-07-31T16:50:59.790+0800*:
后期未复现,暂时关闭。
---
## Attachments
**58999/image-2024-06-12-13-40-06-048.png**
---
**58998/image-2024-06-12-13-41-37-344.png**
---
**58997/image-2024-06-12-13-44-06-926.png**
---
**58996/image-2024-06-12-13-44-25-839.png**
---
**58995/image-2024-06-12-13-46-00-784.png**
---
**58994/image-2024-06-12-13-46-51-391.png**
---
**58993/image-2024-06-12-13-47-02-951.png**
---
**58992/image-2024-06-12-13-52-53-659.png**
---
**59004/image-2024-06-12-15-34-55-983.png**
---