Files
geedge-jira/md/OMPUB-790.md
2025-09-14 21:52:36 +00:00

82 lines
2.8 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 福建项目福州城域网服务器sapp丢包问题
| ID | Creation Date | Assignee | Status |
|----|----------------|----------|--------|
| OMPUB-790 | 2023-02-06T09:43:27.000+0800 | 杨威 | 已关闭 |
---
{*}X主要丢包服务器IP{*}
192.168.16.1-3
192.168.17.2-3
192.168.18.1-2
{*}主要丢包时段{*}
18:40 —— 22:40
2023/01/31通过研发协助定位到丢包问题有一部分原因来自于运营商给系统的流量中包含一部分他们设备内部的通信流量SYSLOG2023/02/01已将大部分SYSLOG流量的二元组在汇聚分流上丢弃。
后续增加了重点丢包服务器的sapp绑定核观察福建Nezha发现仍然丢包2023/02/03 21:00 对重点服务器进行丢包分析发现丢包时单个线程的bps和pps均不高但仍有丢包通过perf -top -C 100查看也没有占用CPU过高下图为当时monit_stream -lHs --per-stream截图
!image-2023-02-06-09-43-21-762.png|thumbnail!**yangwei** commented on *2023-02-06T13:26:49.539+0800*:
2023年02月06日上午更新请[~zhangzhihan] 补充下测试的IP等信息
* 现象
** 抽样福州移动两台16.2-3使用monit_stream进行观察发现丢包线程集中在numa node 1的高位CPUcore id 大于110白天观察出现频率不是十分稳定
** 使用sapp和sysinfo.log加top结果定位初步定位丢包原因为CPU使用接近100%其中sys us较高>20%
** 使用perf观察对应的core怀疑原因有两个
### hos_client上传时系统调用过高
### ddos_sketch上报时系统调用过高
* 操作
** 找了两台机器分别关闭了hos_client和ddos_sketch插件继续观察后续丢包情况
---
**zhangzhihan** commented on *2023-02-06T13:48:03.334+0800*:
192.168.16.3
Hos关闭
ddos_sketch开启
192.168.16.2
Hos开启
ddos_sketch关闭
两台sapp丢包目前都有所改善。对比monit_stream发现192.168.16.3关闭hos后高位CPUsys使用明显降低
!screenshot-1.png|thumbnail!
---
**yangwei** commented on *2023-02-07T09:38:01.963+0800*:
 观察发现存在其他线程抢占收包线程时间片的情况尝试给sapp绑的核收包线程所在核设置isolate看看丢包现象是否有所改善
---
**zhangzhihan** commented on *2023-02-21T14:59:42.603+0800*:
调整isolate后sapp丢包明显改善
目前仍有3台sapp在晚17点至晚23点间大量丢包经排查发现该时间段内服务器cpu爆满。通过分析安全日志发现在该时间段内有一条DNS监测策略命中率非常高导致cpu压力过大选择一台sapp尝试关闭dns插件后cpu使用从100%下降到65%,无丢包现象
---
## Attachments
**34755/image-2023-02-06-09-43-21-762.png**
---
**34764/screenshot-1.png**
---