Files
geedge-jira/md/OMPUB-1498.md
2025-09-14 21:52:36 +00:00

4.5 KiB
Raw Blame History

福建项目泉州联通局点升级至TSG v24.07后测试出现穿透现象流量到TSG-OS但不是每次都能命中策略

ID Creation Date Assignee Status
OMPUB-1498 2024-10-10T09:18:12.000+0800 杨威 已关闭

2024-10-09凌晨福建泉州联通机房的TSG-OS升级至v24.07版本测试封堵效果时发现穿透率很高通过抓包发现流量能到firewall但不是每次都能命中策略穿透的时候firewall能捕到完整的c2s侧流量但没有发rst包且界面无命中日志。

TSG-OS 192.168.21.1CPU Intel 4216 16c *2128G内存 192.168.21.2CPU Intel 4216 16c *2128G内存 192.168.23.1CPU Intel 5218 16c *2160G内存 192.168.23.2CPU Intel 5218 16c *2256G内存

Deny策略Destination IP + Protocolhttp、ssl !image-2024-10-10-09-07-06-208.png|thumbnail!

firewall容器内捕包tcpdump_mesa !image-2024-10-10-09-08-02-438.png|thumbnail!

yangwei commented on 2024-10-10T10:05:03.517+0800:

穿透原因

  • 触发overload protection所以流量能被sapp捕获但是未被firewall处理导致穿透

处理

  • 关闭overload protection后CPU使用较高出现丢包处理中

zhangzhihan commented on 2024-10-10T14:34:07.684+0800:

目前泉州联通4台已调整完毕尖峰时间段12:40 - 13:20CPU占用满丢包严重测试穿透明显。其他时间段CPU占用降低后无穿透。

调整参数如下: 1、关policy sketch set template name tsg_traffic_engine_default policy_sketch enable no

2、关闭traffic sketch set template name tsg_traffic_engine_default traffic_sketch enable no

3、关闭overload_protection set template name tsg_traffic_engine_default overload_protection enable no

4、关重复报文识别 set template name tsg_traffic_engine_default session_manager tcp_duplicated_packet_filter no set template name tsg_traffic_engine_default session_manager udp_duplicated_packet_filter no set template name tsg_traffic_engine_default session_manager inject_duplicated_packet_filter no

5、调整firewall资源占用 set service_function name tsg-traffic-engine-vsys-1 quotas firewall 90

6、TCP流表改到20000 set template name tsg_traffic_engine_default session_manager tcp_session_max 20000

7、UDP流表改到5000 set template name tsg_traffic_engine_default session_manager udp_session_max 5000

8、调整CPU绑定 set system resources packet_io_engine_cores 1,16 set system resources workload_cores 2,3,4,5,6,7,8,9,10,11,12,13,14,15,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31


yangwei commented on 2024-10-10T17:01:18.295+0800:

建议在firewall的firewall_prestart_script.sh中添加如下行暂时关闭firewall输出的metric节省CPU预期下降5%-10% {code:java} crudini --inplace --set /opt/tsg/sapp/tsgconf/main.conf FIREWALL_LOCAL_STAT STAT_INTERVAL_TIME_S 0{code}


zhangzhihan commented on 2024-10-11T10:15:36.716+0800:

2024.10.10晚20点开始泉州联通的压力增大穿透严重192.168.21.1-2两台CPU基本处于爆满状态23.1-2的CPU压力适中traffic_sketch功能均处于关闭状态。 用户为了保证业务稳定减少了约一半流量。流量降低后CPU使用率降低到80%左右此时测试不穿透。尝试开启traffic_sketch功能后CPU攀升至95%测试开始穿透然后就关闭了traffic_sketch功能。 用户希望继续排查CPU压力的问题。

补充泉州联通的TSG升级前CPU压力并不是很大约60%-70%升级后CPU压力明显增大用户反馈流量、策略基本没有太大变化。 !screenshot-1.png|thumbnail!


yangwei commented on 2024-10-12T11:38:10.640+0800:

参照升级前的功能设置可以考虑关闭ssl decoder解析证书http decoder 解压gzip和dns decodertsg-os-cli命令如下 {code:java} tsg-os-cli -1 set template name tsg_traffic_engine_default decoders SSL_CERT no tsg-os-cli -1 set template name tsg_traffic_engine_default decoders SSL_JA3 no  tsg-os-cli -1 set template name tsg_traffic_engine_default decoders HTTP_GZIP no  set template name tsg_traffic_engine_default decoders DNS no {code}


zhangzhihan commented on 2024-10-17T11:45:03.735+0800:

近期观察CPU使用率已经降低很多高峰时期不再丢包穿透解决


Attachments

63454/image-2024-10-10-09-07-06-208.png


63453/image-2024-10-10-09-08-02-438.png


63474/screenshot-1.png