Files
geedge-jira/md/OMPUB-410.md
2025-09-14 22:26:17 +00:00

1.3 KiB
Raw Permalink Blame History

福建项目福州OLAP集群Druid组件不稳定

ID Creation Date Assignee Status
OMPUB-410 2022-03-13T21:43:29.000+0800 戚岱杰 已关闭

现象: 刚部署完福州OLAP集群时首页正常显示日志数据3.12日下午突然发现首页无法正常显示数据且日志界面柱状图无法显示3.13日联系研发定位为druid组件问题重置任务恢复。 qidaijie commented on 2022-03-14T09:47:21.420+0800:

现象如下:

tasks均为pending状态supervisors状态仅显示unhealthyreset无效。

通过命令关闭所有任务后服务器上任务进程依旧存在手动kill并重启Druid计算节点后重新提交任务恢复正常。


qidaijie commented on 2022-03-15T17:48:41.848+0800:

原因:

集群部署时DirectMemorySize参数配置过小导致大量任务频繁重启 堆积。

Druid-Middlemanager进程因为从Zookeeper拉取任务元数据过多导致进程异常 无法提交任务。

上周四参数调整正确后任务能够正常提交但当时未重启coordinator进程导致后续任务异常。

解决方式:

删除MySQL中tasks元数据信息。

重启Druid集群。


Attachments