2.8 KiB
福建项目:福州城域网服务器sapp丢包问题
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-790 | 2023-02-06T09:43:27.000+0800 | 杨威 | 已关闭 |
{}X主要丢包服务器IP{}: 192.168.16.1-3 192.168.17.2-3 192.168.18.1-2
{}主要丢包时段{}: 18:40 —— 22:40
2023/01/31通过研发协助,定位到丢包问题有一部分原因来自于运营商给系统的流量中包含一部分他们设备内部的通信流量(SYSLOG),2023/02/01已将大部分SYSLOG流量的二元组在汇聚分流上丢弃。 后续增加了重点丢包服务器的sapp绑定核,观察福建Nezha发现仍然丢包,2023/02/03 21:00 对重点服务器进行丢包分析,发现丢包时单个线程的bps和pps均不高,但仍有丢包,通过perf -top -C 100查看也没有占用CPU过高,下图为当时monit_stream -lHs --per-stream截图 !image-2023-02-06-09-43-21-762.png|thumbnail!yangwei commented on 2023-02-06T13:26:49.539+0800:
2023年02月06日上午更新,请[~zhangzhihan] 补充下测试的IP等信息:
- 现象 ** 抽样福州移动两台(16.2-3),使用monit_stream进行观察,发现丢包线程集中在numa node 1的高位CPU(core id 大于110),白天观察,出现频率不是十分稳定 ** 使用sapp和sysinfo.log加top结果定位,初步定位丢包原因为CPU使用接近100%,其中sys us较高(>20%) ** 使用perf观察对应的core,怀疑原因有两个:
hos_client上传时系统调用过高
ddos_sketch上报时系统调用过高
- 操作 ** 找了两台机器,分别关闭了hos_client,和ddos_sketch插件,继续观察后续丢包情况
zhangzhihan commented on 2023-02-06T13:48:03.334+0800:
192.168.16.3 Hos:关闭 ddos_sketch:开启
192.168.16.2 Hos:开启 ddos_sketch:关闭
两台sapp丢包目前都有所改善。对比monit_stream,发现192.168.16.3关闭hos后,高位CPUsys使用明显降低 !screenshot-1.png|thumbnail!
yangwei commented on 2023-02-07T09:38:01.963+0800:
观察发现存在其他线程抢占收包线程时间片的情况,尝试给sapp绑的核(收包线程所在核)设置isolate,看看丢包现象是否有所改善
zhangzhihan commented on 2023-02-21T14:59:42.603+0800:
调整isolate后sapp丢包明显改善; 目前仍有3台sapp在晚17点至晚23点间大量丢包,经排查发现该时间段内服务器cpu爆满。通过分析安全日志发现在该时间段内有一条DNS监测策略命中率非常高,导致cpu压力过大,选择一台sapp尝试关闭dns插件后,cpu使用从100%下降到65%,无丢包现象
Attachments
34755/image-2023-02-06-09-43-21-762.png
34764/screenshot-1.png