Files
geedge-jira/md/OMPUB-790.md
2025-09-14 21:52:36 +00:00

2.8 KiB
Raw Blame History

福建项目福州城域网服务器sapp丢包问题

ID Creation Date Assignee Status
OMPUB-790 2023-02-06T09:43:27.000+0800 杨威 已关闭

{}X主要丢包服务器IP{} 192.168.16.1-3 192.168.17.2-3 192.168.18.1-2

{}主要丢包时段{} 18:40 —— 22:40

2023/01/31通过研发协助定位到丢包问题有一部分原因来自于运营商给系统的流量中包含一部分他们设备内部的通信流量SYSLOG2023/02/01已将大部分SYSLOG流量的二元组在汇聚分流上丢弃。 后续增加了重点丢包服务器的sapp绑定核观察福建Nezha发现仍然丢包2023/02/03 21:00 对重点服务器进行丢包分析发现丢包时单个线程的bps和pps均不高但仍有丢包通过perf -top -C 100查看也没有占用CPU过高下图为当时monit_stream -lHs --per-stream截图 !image-2023-02-06-09-43-21-762.png|thumbnail!yangwei commented on 2023-02-06T13:26:49.539+0800:

2023年02月06日上午更新请[~zhangzhihan] 补充下测试的IP等信息

  • 现象 ** 抽样福州移动两台16.2-3使用monit_stream进行观察发现丢包线程集中在numa node 1的高位CPUcore id 大于110白天观察出现频率不是十分稳定 ** 使用sapp和sysinfo.log加top结果定位初步定位丢包原因为CPU使用接近100%其中sys us较高>20% ** 使用perf观察对应的core怀疑原因有两个

hos_client上传时系统调用过高

ddos_sketch上报时系统调用过高

  • 操作 ** 找了两台机器分别关闭了hos_client和ddos_sketch插件继续观察后续丢包情况

zhangzhihan commented on 2023-02-06T13:48:03.334+0800:

192.168.16.3 Hos关闭 ddos_sketch开启

192.168.16.2 Hos开启 ddos_sketch关闭

两台sapp丢包目前都有所改善。对比monit_stream发现192.168.16.3关闭hos后高位CPUsys使用明显降低 !screenshot-1.png|thumbnail!


yangwei commented on 2023-02-07T09:38:01.963+0800:

 观察发现存在其他线程抢占收包线程时间片的情况尝试给sapp绑的核收包线程所在核设置isolate看看丢包现象是否有所改善


zhangzhihan commented on 2023-02-21T14:59:42.603+0800:

调整isolate后sapp丢包明显改善 目前仍有3台sapp在晚17点至晚23点间大量丢包经排查发现该时间段内服务器cpu爆满。通过分析安全日志发现在该时间段内有一条DNS监测策略命中率非常高导致cpu压力过大选择一台sapp尝试关闭dns插件后cpu使用从100%下降到65%,无丢包现象


Attachments

34755/image-2023-02-06-09-43-21-762.png


34764/screenshot-1.png