1.3 KiB
1.3 KiB
福建项目:福州OLAP集群Druid组件不稳定
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-410 | 2022-03-13T21:43:29.000+0800 | 戚岱杰 | 已关闭 |
现象: 刚部署完福州OLAP集群时,首页正常显示日志数据,3.12日下午突然发现首页无法正常显示数据,且日志界面柱状图无法显示,3.13日联系研发,定位为druid组件问题,重置任务恢复。 qidaijie commented on 2022-03-14T09:47:21.420+0800:
现象如下:
tasks均为pending状态,supervisors状态仅显示unhealthy,reset无效。
通过命令关闭所有任务后,服务器上任务进程依旧存在;手动kill并重启Druid计算节点后,重新提交任务恢复正常。
qidaijie commented on 2022-03-15T17:48:41.848+0800:
原因:
集群部署时DirectMemorySize参数配置过小,导致大量任务频繁重启 堆积。
Druid-Middlemanager进程因为从Zookeeper拉取任务元数据过多,导致进程异常 无法提交任务。
上周四参数调整正确后,任务能够正常提交,但当时未重启coordinator进程;导致后续任务异常。
解决方式: