Files
geedge-jira/md/OMPUB-564.md
2025-09-14 21:52:36 +00:00

6.3 KiB
Raw Blame History

新疆前端运营商环境 TSG21.12版本 主面板和实时图表数据不准确

ID Creation Date Assignee Status
OMPUB-564 2022-07-22T17:14:22.000+0800 窦凤虎 已解决

1、以联通为例联通的7月19日联通CN省口报告中流量速率峰值是1.01Tbps联通NEZHA系统显示流量峰值速率为1.1Tbps而联通TSG显示流量峰值速率为869.67Gbps除此之外基本界面所有数据均与CK查询数值都对不上

2、以移动为例移动的7月23日吞吐量 TSG界面实时图表显示4.64PB

!移动23日实时图表.png|thumbnail!

CK查询显示4.52PB

!移动23日CK查询.jpg|thumbnail!

3、电信测试环境CK数据库中11日-14日无数据巡检发现电信TSG界面实时图表显示15日20:30到17日无数据排查原因为durid任务重启导致不影响CK中的数据16日CK服务器80.7硬盘大量损坏电信测试环境仅剩2台CK存储。

4、需要确认移动和联通环境是否以CK数据库查询出的数据为准

5、需要排查电信环境CK少几天数据是否是因为电信只保存12天日志或是80.7硬盘损坏导致?

 doufenghu commented on 2022-07-29T10:40:31.914+0800:

相关问题答复:

  • {color:#0747a6}统计口径不一致,存在两方面原因{color} ** {color:#0747a6}统计口径: 关于峰值速率,计算方式为“单位时间带宽大小/时间粒度”,误差尽量控制在 ±5%。关于该问题麻烦列下运营商那边流量峰值和计算粒度作为参考值。[~jiayimeng] {color} ** {color:#0747a6}系统bug 可能为现场配置或系统bug目前在定位排查。{color}

{quote}1、以联通为例联通的7月19日联通CN省口报告中流量速率峰值是1.01Tbps联通NEZHA系统显示流量峰值速率为1.1Tbps而联通TSG显示流量峰值速率为869.67Gbps除此之外基本界面所有数据均与CK查询数值都对不上 {quote}  

  • {color:#0747a6}Live Charts 图表计算属于流式计算,基于处理时间(实时任务的时间)切分窗口进行聚合计算。因实际会话以事件时间(会话结束时间)并且为乱序状态。因选取时间口径不一致,导致实时计算总量与离线报告统计的总量不一致。离线报告结果更精确。同样误差尽量控制在 ±5%。{color}

  {quote}2、以移动为例移动的7月23日吞吐量 TSG界面实时图表显示4.64PBCK查询显示4.52PB {quote}  

  • {color:#0747a6}电信为混部环境CK仅3台存储保持尽可能存储的原则完整数据最大保存7天可沟通后按需调整。{color}

  {quote}3、电信测试环境CK数据库中11日-14日无数据巡检发现电信TSG界面实时图表显示15日20:30到17日无数据排查原因为durid任务重启导致不影响CK中的数据16日CK服务器80.7硬盘大量损坏电信测试环境仅剩2台CK存储。

5、需要排查电信环境CK少几天数据是否是因为电信只保存12天日志或是80.7硬盘损坏导致? {quote}  

  • {color:#0747a6}相关 Top X 或 一些协议APP计算 尽量通过Report定制。当前直接查询数据库也没问题。{color}

  {quote}4、需要确认移动和联通环境是否以CK数据库查询出的数据为准 {quote}


doufenghu commented on 2022-07-29T16:00:10.143+0800:

联通7月20号日志统计流量峰值 ||统计来源||指标||10s||1min||5min|| |已关闭会话日志|c2s_bytes s2c_bytes| {}4.49Tbps{} 2022-07-20 23:05:50|2.27 Tbps2022-07-20 23:05:00|1.2 Tbps (2022-07-20 23:05:00)| |已关闭+过渡会话日志|c2s_byte_diff S2c_bytes_diff|1.02Tbps|1Tbps|980Gbps| |Traffic Metrics Dashboard|total_in_bytes total_out_bytes|942.3Gbps|907.86Gbps|888.44Gbps| |实时统计(Live Charts)|c2s_byte_diff S2c_bytes_diff|1.56Tbps|759.58Gbps|654.11Gbps|

  • 基于已关闭会话日志-(C2S+S2c) Bytes 计算峰值流量速率可能受UDP流量影响不适用计算速率; 现象如下:  ** TCP和UDP流量占比符合8/2原则24小时带宽TCP占75%-85%UDP 15%-25% ; 24小时会话量TCP占75%-85%UDP 15%-25%。 ** 抽取10s的数据2022/7/20 23:05:50({}4.49Tbps{}) 和 2022/7/20 0:04:20({}1.02Tbps{})对比 *** 会话量在一个量级900多万 *** 2022/7/20 23:05:50 ,带宽{}TCP占56.29%UDP占 43.71%{} 会话量TCP占80.85%UDP 19.15%。 **** UDP 会话持续时间AVG: 129s, P95: 60sP99: 576s  ***  2022/7/20 0:04:20,  带宽{}TCP占81.85%UDP占 18.15%{} 会话量TCP占82.13%UDP 17.87%。  **** UDP 会话持续时间AVG: 18s, P95: 54sP99: 223s  ** 抽取60s的数据2022-07-20 23:05:00({}2.27 Tbps{}) 和 2022/7/20 0:00:00({}1Tbps{})对比 *** 会话量在一个量级5000多万 *** 2022/7/20 23:05:00 ,带宽{}TCP占56.99%UDP占 43.01%{} 会话量TCP占79.48%UDP 20.52%。 *** 2022/7/20 0:00:00,  带宽{}TCP占80.71%UDP占 19.29%{} 会话量TCP占82.29%UDP 17.71%。
  • 从数据上看,已关闭+过渡会话日志 计算速率相对稳定可基于该指标计算带宽速率目前实时统计计算结果不正确已确认Flink Live Charts 性能问题,待调优。[~qidaijie] 
  • Traffic Metrics(DPI ) 流量指标目前与Nezha 1.1Tbps ,存在差距,需要进行排查。[~yangwei] 

jiayimeng commented on 2022-07-29T18:19:17.536+0800:

新疆联通流量峰值数据来源是EDPI系统这个系统基于netflow在各路由设备上采集数据。


doufenghu commented on 2023-02-27T11:15:58.312+0800:

12 问题基于22.07 新疆移动继续排查下。[~qidaijie] 


qidaijie commented on 2023-03-09T11:16:48.937+0800:

问题1查询了联通和移动3月2号-6号的TSG与NZ的流量峰值图峰值数据几乎没有误差个别误差在1%。 [^移动TSG-NZ峰值流量对比.zip] [^联通TSG-NZ峰值流量对比.zip]


qidaijie commented on 2023-03-10T21:35:08.308+0800:

问题2查询了移动3月1号-3月6号livecharts和Closed日志统计的流量情况平均误差在0.5%左右。

[^移动流量对比.xlsx]


Attachments

35909/联通TSG-NZ峰值流量对比.zip


29818/移动23日CK查询.jpg


29817/移动23日实时图表.png


35910/移动TSG-NZ峰值流量对比.zip


36009/移动流量对比.xlsx