Files
geedge-jira/md/OMPUB-434.md
2025-09-14 21:52:36 +00:00

1.7 KiB
Raw Blame History

【K现场】首页Dashboard报错

ID Creation Date Assignee Status
OMPUB-434 2022-04-06T21:19:07.000+0800 戚岱杰 已关闭

首页登录后Dashboard有报错信息通过接口返回值查看为top app返回查询异常。qidaijie commented on 2022-04-08T10:11:35.764+0800:

报错原因部分Druid historical进程启动失败无法加载traffic_app_stat_log所需的segment导致界面查询报错。

查看Druid日志发现

historical进程在反复重启每次重启因内存溢出导致启动失败服务器有大量程序崩溃日志hs_err_pid.log报错内容均为OutOfMemoryError。

进程所占内存未达到上限服务器内存也有大量剩余启动失败原因是加载segment时所需的内存映射地址不足致使启动失败。

出现该问题有两方面原因:

rc3与21.09版本混部表的数量翻倍需要加载的segment也会相应翻倍每个historical进程加载的数量变大且rc3版本未开启压缩功能不会合并小文件。目前集群所需加载segment数量是200W+,不仅影响进程启动,可能也会造成慢查询现象。

内存文件映射打开数量不够官方建议调整Linux vm.max_map_count参数默认参数是65536建议调大到655360。

解决方案:

提供segment压缩脚本rc3版本表也开启压缩任务。

修改系统参数vm.max_map_count为655360。


Attachments

26845/bifang页面报错排查过程.docx


26844/compaction-v2.tar.gz


26879/historical_log.jpg


26880/historical进程崩溃.jpg


26881/traffic_app未加载成功.jpg


26882/加载的segment数量.jpg