Files
geedge-jira/md/OMPUB-1362.md
2025-09-14 21:52:36 +00:00

2.9 KiB
Raw Blame History

【E21】OAP-PE NPB04内存增长导致OOM

ID Creation Date Assignee Status
OMPUB-1362 2024-07-09T21:24:46.000+0800 杨威 已关闭

OAP-PE NPB04于7月3日开始Proxy Packet I/O模块创建的session数量持续增长导致Proxy的内存持续上涨最后触发OOM。luqiuwen commented on 2024-07-15T09:48:21.309+0800:

7月2日至5日18点从tfe的统计看控制报文中active-close的数量一直在增加导致tfe的并发连接数一直在增加这应该是造成内存上涨的直接原因。

!image-2024-07-15-09-47-03-702.png!

下图是并发连接的统计,可见这一段时间并发连接数一直在增加。 !image-2024-07-15-09-48-21-503.png!


yangwei commented on 2024-07-15T10:00:50.410+0800:

现象

  • OAP站点所有NPB上Proxy的内存均存在上涨的现象平均使用超过20GB高于其他站点的5~7GB ** 以NPB01为例7月5日前呈持续上涨的趋势至7月5日后趋于平稳 ** !image-2024-07-15-09-50-19-305.png|width=604,height=424!
  • OAP站点NPB047月5日后内存占用仍持续上涨直至7月9日触发OOM ** !image-2024-07-15-09-51-30-140.png|width=595,height=419!

分析

NPB01的监控显示7.1~7.5之间Proxy接收到的控制报文中open状态多于closing从而大量session未正常关闭造成内存占用上涨

!image-2024-07-15-09-43-24-947.png|width=551,height=312!!image-2024-07-15-09-44-21-583.png|width=676,height=306!

sf_classifier监控显示对应时段7.2~7.5发送的open和closing控制报文数量基本持平

!image-2024-07-15-09-45-57-616.png|width=838,height=524!

对比sf_classifer和Proxy的计数open报文计数基本一致但是sf_classifer的closing报文计数与proxy收到的closing报文计数在7月2日7月5日间出现明显的差值每秒相差约1015推算与proxy持续维持的session数相符。

!anydesk00002_副本2.png|width=838,height=524!

 

初步结论:

  • OAP站点Proxy内存上涨原因为在7月2日~7月5日Proxy接收到的closing报文与open报文不一致相关进一步的原因为对应时段sf_classifer发送的closing报文与Proxy接收到的数量不一致
  • OAP NPB04在7月5日后内存持续上涨导致oom的原因待进一步分析

Attachments

60073/anydesk00002_副本2.png


60074/anydesk00002_副本2-1.png


60064/image-2024-07-15-09-43-24-947.png


60065/image-2024-07-15-09-44-21-583.png


60066/image-2024-07-15-09-45-14-762.png


60067/image-2024-07-15-09-45-19-650.png


60068/image-2024-07-15-09-45-57-616.png


60069/image-2024-07-15-09-47-03-702.png


60070/image-2024-07-15-09-48-21-503.png


60071/image-2024-07-15-09-50-19-305.png


60072/image-2024-07-15-09-51-30-140.png