Files
geedge-jira/md/OMPUB-758.md
2025-09-14 22:27:11 +00:00

5.1 KiB
Raw Permalink Blame History

【E21现场】出现几分钟系统session records日志无法搜索展示出任何数据。

ID Creation Date Assignee Status
OMPUB-758 2022-12-28T20:59:01.000+0800 戚岱杰 已关闭

在2022-12-28 11:30:00左右在使用tsg系统查询session records出现几分钟系统session records日志无法搜索展示出任何数据。见附件

同时NZ系统上出现多台OLAP服务器OLAP High Memory Usage > 80%告警消息。(告警消息详情已导出见附件)qidaijie commented on 2022-12-30T10:36:59.431+0800:

情况描述:

经描述当地时间11点出现日志查询超时现象从监控Dashboard出现ClickHouse节点内存告警持续20分钟左右11.38和11.40节点先后分别重启。

参考图Clickhouse宕机记录/Clickhouse内存告警

 

问题排查:

查看Clickhouse系统记录11点离线任务IP Learning程序运行每小时执行一次在同一时刻并行执行了20个左右的查询每个查询内存占用在5-20G左右磁盘IO使用率增加至60%左右11.38/40使用率到100%。

参考图Clickhouse资源-1 2 3/11.38查询日志/11.40查询日志

同时GoHangout 日志加载执行时间变长大约310分钟正常执行时间在20-40秒左右过长的执行时间导致Gohangout使用内存增加到近总内存的50%。

参考图异常时Gohangout资源/当天下午gohangout资源/第二日gohangout资源

拨测过程中字段发现3个小时范围的聚合统计慢查询大约50亿

综合上述情况OLAP 受到ClickHouse与Gohangout 混合部署影响并且在同一时刻骤增多条慢SQL查询导致服务器瞬时资源负载过高影响整体的查询操作体验或查询超时现象。

 

问题处理:

该issue未干预情况下待慢查询结束后系统恢复正常。后续综合分析慢查询SQL采取限制并发查询数量同时优化IP Learning 调度频率。


qidaijie commented on 2023-02-17T13:57:21.436+0800:

补充慢查询详细SQL[^慢查询详细SQL内容.txt]


liuju commented on 2023-02-21T14:50:09.909+0800:

目前暂未再复现该情况。


Attachments

Attachment: 11.38查询日志.png

11.38查询日志.png

Attachment: 11.40查询日志.png

11.40查询日志.png

Attachment: alert-message-2022-12-28+11-33-05.xlsx

alert-message-2022-12-28+11-33-05.xlsx

Attachment: Clickhouse内存告警.png

Clickhouse内存告警.png

Attachment: Clickhouse资源-1.png

Clickhouse资源-1.png

Attachment: Clickhouse资源-2.png

Clickhouse资源-2.png

Attachment: Clickhouse资源-3.png

Clickhouse资源-3.png

Attachment: Clickhouse宕机记录.png

Clickhouse宕机记录.png

Attachment: 当天下午gohangout资源.png

当天下午gohangout资源.png

Attachment: 第二日gohangout资源.png

第二日gohangout资源.png

Attachment: 慢查询详细SQL内容.txt

慢查询详细SQL内容.txt

Attachment: 微信图片_20221228155321.png

微信图片_20221228155321.png

Attachment: 微信图片_20221228155327.png

微信图片_20221228155327.png

Attachment: 微信图片_20221228155334.png

微信图片_20221228155334.png

Attachment: 微信图片_20221228155337.png

微信图片_20221228155337.png

Attachment: 异常时Gohangout资源.png

异常时Gohangout资源.png