Files
geedge-jira/md/OMPUB-339.md
2025-09-14 21:52:36 +00:00

2.5 KiB
Raw Blame History

【E21-OLAP】E现场Flink程序内存占用过高

ID Creation Date Assignee Status
OMPUB-339 2022-02-04T15:14:10.000+0800 戚岱杰 已关闭

E现场DIR-IGW和OAP-PE站点olap程序占用内存过高无法消除nezha告警信息。qidaijie commented on 2022-02-04T18:17:45.889+0800:

上传排查问题时截取的资源情况图


doufenghu commented on 2022-02-07T10:49:28.704+0800:

  • OAP-PE Transaction Records 是 Session Records 两倍看下Transaction Records (SIP/HTTP/DNS) 分布情况。
  • Flink 每个Task 资源占用情况

qidaijie commented on 2022-02-17T15:20:34.755+0800:

通过现场查询Transaction Records两天的协议分布情况仅有HTTP和DNS协议。

2022-02-3: 所有局点当天总日志量12520251632 ||协议||数量||占比|| |HTTP|1406380225|11%| |DNS|11113871407|89%|

OAP-PE局点当天总日志量1167634678 占总日志量的 9%。 ||协议||数量||占比|| |HTTP|36410169|4%| |DNS|1131224509|96%|

2022-02-15: 所有局点当天总日志量12913967467 ||协议||数量||占比|| |HTTP|1572442201|12%| |DNS|11341525266|88%|

OAP-PE局点当天总日志量874410006 占总日志量的 7%。 ||协议||数量||占比|| |HTTP|31220187|3%| |DNS|843189819|97%|


qidaijie commented on 2022-02-21T10:17:36.367+0800:

根据现场回传的日志情况 [^各局点日志速率分布情况.zip]

PE及GGSN站点 普遍transaction比session大的情况。

IGW站点 普遍session比transaction大。

与功能端同事沟通现场的流量情况可能出现此情况DNS在PE和GGSN较多导致transaction比session大。[~liuxueli]


qidaijie commented on 2022-03-08T09:40:16.709+0800:

  • 经查看现场排查该问题可能与Flink Taskmanager发生较多次Full GC导致进程失联恢复后内存资源未得到释放触发NeZha告警。
  • 新增Taskmanager进程失联检测方式后规避进程失联问题目前尚未收到相关告警。该问题需要持续追踪。

Attachments

25039/DIR-IGW-Taskmanager.png


25040/DIR-IGW服务器内存情况.png


25041/DIR-IGW日志量.png


25042/DIR-IGW容器内存.png


25043/OAP-PE-Taskmanager.png


25044/OAP-PE服务器内存情况.png


25045/OAP-PE日志量.png


25046/OAP-PE容器内存.png


25466/各局点日志速率分布情况.zip


25038/微信图片_20220204101054.png