2.5 KiB
【E21-OLAP】E现场Flink程序内存占用过高
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-339 | 2022-02-04T15:14:10.000+0800 | 戚岱杰 | 已关闭 |
E现场DIR-IGW和OAP-PE站点olap程序占用内存过高,无法消除nezha告警信息。qidaijie commented on 2022-02-04T18:17:45.889+0800:
上传排查问题时截取的资源情况图
doufenghu commented on 2022-02-07T10:49:28.704+0800:
- OAP-PE Transaction Records 是 Session Records 两倍,看下Transaction Records (SIP/HTTP/DNS) 分布情况。
- Flink 每个Task 资源占用情况
qidaijie commented on 2022-02-17T15:20:34.755+0800:
通过现场查询Transaction Records两天的协议分布情况,仅有HTTP和DNS协议。
2022-02-3: 所有局点当天总日志量:12520251632 ||协议||数量||占比|| |HTTP|1406380225|11%| |DNS|11113871407|89%|
OAP-PE局点当天总日志量:1167634678 占总日志量的 9%。 ||协议||数量||占比|| |HTTP|36410169|4%| |DNS|1131224509|96%|
2022-02-15: 所有局点当天总日志量:12913967467 ||协议||数量||占比|| |HTTP|1572442201|12%| |DNS|11341525266|88%|
OAP-PE局点当天总日志量:874410006 占总日志量的 7%。 ||协议||数量||占比|| |HTTP|31220187|3%| |DNS|843189819|97%|
qidaijie commented on 2022-02-21T10:17:36.367+0800:
根据现场回传的日志情况 [^各局点日志速率分布情况.zip] :
PE及GGSN站点 普遍transaction比session大的情况。
IGW站点 普遍session比transaction大。
与功能端同事沟通,现场的流量情况可能出现此情况;DNS在PE和GGSN较多,导致transaction比session大。[~liuxueli]
qidaijie commented on 2022-03-08T09:40:16.709+0800:
- 经查看现场排查,该问题可能与Flink Taskmanager发生较多次Full GC,导致进程失联,恢复后内存资源未得到释放,触发NeZha告警。
- 新增Taskmanager进程失联检测方式后,规避进程失联问题,目前尚未收到相关告警。该问题需要持续追踪。
Attachments
25039/DIR-IGW-Taskmanager.png
25040/DIR-IGW服务器内存情况.png
25041/DIR-IGW日志量.png
25042/DIR-IGW容器内存.png
25043/OAP-PE-Taskmanager.png
25044/OAP-PE服务器内存情况.png
25045/OAP-PE日志量.png
25046/OAP-PE容器内存.png
25466/各局点日志速率分布情况.zip
25038/微信图片_20220204101054.png