7.7 KiB
【XJ-CUCC-IDC】省出入口升级TSG和APP Sketch DB后,应用流量识别骤增
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-799 | 2023-02-08T11:22:43.000+0800 | 冯伟浩 | 已关闭 |
1、版本升级情况 新疆联通省口 TSG21.12 --> TSG22.07 APP Sketch DB 22.08 --> 22.12
2、升级前后的对比 !screenshot-6.png|thumbnail!
- 升级前后,省口单日总吞吐量基本一致,过年后流量大致增长5%左右;省口接入链路没有变化
- 升级前后,从现象看,TSG和App Sketch DB更新后,APP识别结果有较大变化。升级前1月31日识别出应用的流量占比23%,升级后2月4日识别出应用的流量占比68%。以字节跳动为例,每日识别出的流量从100TB左右,上升到500TB左右,字节服务端IP数由2W+,上升到4W+。
- 升级前的字节跳动识别的域名中,当日吞吐量大于100G的域名共有10个,且均为字节跳动所有,这10个域名流量占比97.44%;升级后的字节跳动识别的域名中,当日吞吐量大于100G的域名共有113个;在TOP10的域名中,TOP4是pddpic.com(拼多多),吞吐量为10.68TB;TOP7和TOP9是yximgs.com和kwaicdn.com(快手),吞吐量为10.31TB;升级后的字节跳动识别的域名中,总吞吐量为506.77TB,TOP50的吞吐量为486.67TB,TOP50中不属于字节跳动的域名共21个,吞吐量为40.68TB,占总吞吐量的8%;
- 升级前的字节跳动识别的server IP中,TOP50的IP吐吞量为84.56TB,TOP50的server IP中青海西宁联通的IP共有34个,吞吐量为61.46TB;升级后的字节跳动识别的server IP中,TOP50的IP吞吐量为355.27TB,TOP50的server IP中青海西宁联通的IP共有47个,吞吐量是344.45TB;
- douyinvod.com域名在升级前流量是189.7TB,会话是133.58M;升级后249.06TB,会话是148.91M;有大约20%增长。升级前douyinvod.com域名识别为字节跳动的流量和会话均占比为17%,未识别为应用的流量和会话的占比为82%,识别应用3个,其中字节跳动的1个;升级后douyinvod.com域名识别为字节跳动的流量和会话均占比为95%,未识别为应用的流量和会话的占比几乎可忽略不计,识别应用99个,其中字节跳动的4个。
jiayimeng commented on 2023-02-09T11:09:29.187+0800:
后续几个问题 • 省口因导入了100多个自定义APP,经功能端排查,误识别比例小;IDC是否需导入自定义APP? 自定义APP识别的流量不会被计算到CN的数据中,做过隔离。 • TSG21.12版本和APP Sketch DB 22.08 出现过 TSG版本和DB版本不太匹配的问题,在TSG21.12中,钉钉应用系统内应用名为dingding,但在TSG22.07和DB22.08版本中,钉钉应用名为dingtalk。目前省口已升级为TSG22.07和DB22.12版本,IDC目前TSG版本22.04,DB版本22.08,可否先升级DB版本到22.12,TSG版本稍后升级,先测试是否是DB版本的升级导致APP识别流量的变化。因为目前甲方在等我们的本省率相关的数据结果。 • 可能由于DB的版本变化导致的本省率的骤降问题,如何严谨的给甲方做出相应解释。 • 后续XJ-CUCC-IDC项目在省口和IDC的两套TSG系统,协调保持与APP Sketch DB相对应的版本,及时升级? 省口的TSG升级还涉及到配置和日志中间件的适配 IDC的TSG升级需更新TSG-X的镜像版本
lizhao commented on 2023-02-09T11:54:25.425+0800:
现象写的很详细,简单总结:
- 升级前后,总流量没有大的波动
- 升级后,能够识别出应用的流量占比增加,由23%上升到68%
- 以字节跳动为例,分析应用识别流量上升现象 ** 升级前单日识别100TB流量,升级后单日识别500TB流量 ** douyinvod.com是字节跳动流量最高的域名,升级前,该域名82%的流量未识别到应用,升级后,该域名95%被识别为字节跳动 ** 升级后,字节跳动APP中出现快手、拼多多等误识别域名,流量占比大致为8%
原因推测:
- 流量本身没有大的变化,DB特征变化导致上述现象的概率大
影响:
- 应用监测业务,本省率分析业务(业主近期关注),升级前后差别较大,需要跟业主解释原因
请[~liuyang] 协助分析下原因。
liuyang commented on 2023-02-10T10:37:54.711+0800:
APP Sketch DB升级除了新增、删除APP,也会更新已有APP特征,导致APP识别准确率升高或者降低。 对于类似问题采取向内置APP添加自定义特征的方式进行修复[~fengweihao]。新增特征在后续版本APP Sketch DB中同步发布 [~fengweihao] [~zhangwei]
fengweihao commented on 2023-02-16T15:20:23.005+0800:
问题原因: 第三方识别引擎开启分类缓存功能,导致误识别率增加
现象: app_proto_engine, 192.168.55.4.63248>163.181.35.230.80 1/5 1 f(701)/p/path=base(3).ip(81).tcp(205).http(67).kuaishou(3989) report/p/path=3989 app_proto_engine, 192.168.55.4.63248>163.181.35.230.80 1/5 1 f(701)/p/cached_path=base(3).ip(81).tcp(205).bytedance(3496).douyin(3974) report/p/path=3496.3974
修复方案: vi tsgconf/main.conf 修改[APP_PROTO_ENGINE]下配置项 将 classification_cache_enable=2 修改为 classification_cache_enable=0
重启SAPP
systemctl restart sapp
zhaokun commented on 2023-02-16T18:14:14.089+0800:
未修改前,测试环境能够正常复现误识别问题。
按照上面方法修改后进行复测,打开抖音刷视频、再打开快手刷视频,大概观察了10分钟左右,通过日志检索,未发现误识别现象。
jiayimeng commented on 2023-02-19T16:38:59.110+0800:
按照上面方法修改后,查询2月18日当天,识别为Bytedance,Tencent,Alibaba,Kuaishou的流量的域名TOP50中,当日吞吐量大于1GB的域名均未发现误识别现象。
fengweihao commented on 2023-02-20T17:12:06.089+0800:
TSG-OS在23.02更新以上问题
Attachments
Attachment: 1月31日字节跳动serveripTOP50.xlsx
Attachment: 1月31日字节域名全量.csv
Attachment: 2月4日字节跳动serveripTOP50.xlsx
Attachment: 2月4日字节域名全量(1).csv
Attachment: screenshot-1.png
Attachment: screenshot-2.png
Attachment: screenshot-3.png
Attachment: screenshot-4.png
Attachment: screenshot-5.png
Attachment: screenshot-6.png





