1.9 KiB
【WMS-UTR】TWA站点OLAP Flie Chunk Combiner 出现大量文件回传失败
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-1387 | 2024-07-29T10:41:14.000+0800 | 王成成 | 已解决 |
1、7月22日开始赛克调整分流策略,由按照隧道外层分流,调整为按照隧道内层分流,调整后各数据中心的TSGX接收流量相对均衡。
2、因为需要配合百分点验收,何老师要求把HTTP监测策略的过滤条件去除,过滤条件为:request content-type:text|application这两个参数都是字串。
3、调整策略后P19现场MSH站点,kafka集群仅摄入File Chunk日志写入速率达到5600MB/s,服务器网卡接受端总速率达到7800MB/s,网卡接受端速率比实际硬盘写入速率高出40%左右。目前处理任务受网卡能力限制出现延迟。TWA站点与现象相同(PCAP站点因链路中断,待排查)。
4、后来和何老师沟通,调整HTTP策略,添加过滤条件。
策略1:http+request content-type : text(字串) 策略2:http+response content-type : text(字串) 策略3:http+request content-type : application(字串) + json|form|pdf|xml|x-ms 策略4:http+ respnose content-type : application(字串) + json|form|pdf|xml|x-ms
5、目前TWA数据中心的流量相较其他站点大,导致OLAP-YARN集群资源不足
下图为系统流量峰值前,各OLAP服务器网卡收发流量情况
!image-2024-07-29-10-37-57-360.png|width=530,height=244!wangchengcheng commented on 2024-07-30T11:53:29.033+0800:
TWA站点现状,经过以下调整后,相关任务处理无延迟:
- Yarn集群内存从80G调整至130G
- HBase集群内存从64G调整至5G
目前,三个站点的业务功能正常。
Attachments
60336/image-2024-07-29-10-37-57-360.png