5.1 KiB
【E21现场】出现几分钟系统session records日志无法搜索展示出任何数据。
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-758 | 2022-12-28T20:59:01.000+0800 | 戚岱杰 | 已关闭 |
在2022-12-28 11:30:00左右,在使用tsg系统查询session records,出现几分钟系统session records日志无法搜索展示出任何数据。(见附件)
同时NZ系统上出现多台OLAP服务器OLAP High Memory Usage > 80%告警消息。(告警消息详情已导出见附件)qidaijie commented on 2022-12-30T10:36:59.431+0800:
情况描述:
经描述当地时间11点出现日志查询超时现象,从监控Dashboard出现ClickHouse节点内存告警持续20分钟左右;11.38和11.40节点先后分别重启。
参考图:Clickhouse宕机记录/Clickhouse内存告警
问题排查:
查看Clickhouse系统记录,11点离线任务(IP Learning)程序运行(每小时执行一次),在同一时刻并行执行了20个左右的查询,每个查询内存占用在5-20G左右,磁盘IO使用率增加至60%左右,11.38/40使用率到100%。
参考图:Clickhouse资源-1 2 3/11.38查询日志/11.40查询日志
同时GoHangout 日志加载执行时间变长,大约3~10分钟,正常执行时间在20-40秒左右;过长的执行时间,导致Gohangout使用内存增加到近总内存的50%。
参考图:异常时Gohangout资源/当天下午gohangout资源/第二日gohangout资源
拨测过程中,字段发现3个小时范围的聚合统计慢查询(大约50亿)
综合上述情况,OLAP 受到ClickHouse与Gohangout 混合部署影响,并且在同一时刻骤增多条慢SQL查询,导致服务器瞬时资源负载过高,影响整体的查询操作体验或查询超时现象。
问题处理:
该issue未干预情况下,待慢查询结束后,系统恢复正常。后续综合分析慢查询SQL,采取限制并发查询数量,同时优化IP Learning 调度频率。
qidaijie commented on 2023-02-17T13:57:21.436+0800:
补充慢查询详细SQL:[^慢查询详细SQL内容.txt]
liuju commented on 2023-02-21T14:50:09.909+0800:
目前暂未再复现该情况。
Attachments
Attachment: 11.38查询日志.png
Attachment: 11.40查询日志.png
Attachment: alert-message-2022-12-28+11-33-05.xlsx
alert-message-2022-12-28+11-33-05.xlsx
Attachment: Clickhouse内存告警.png
Attachment: Clickhouse资源-1.png
Attachment: Clickhouse资源-2.png
Attachment: Clickhouse资源-3.png
Attachment: Clickhouse宕机记录.png
Attachment: 当天下午gohangout资源.png
Attachment: 第二日gohangout资源.png
Attachment: 慢查询详细SQL内容.txt
Attachment: 微信图片_20221228155321.png
Attachment: 微信图片_20221228155327.png
Attachment: 微信图片_20221228155334.png
Attachment: 微信图片_20221228155337.png
Attachment: 异常时Gohangout资源.png













