Files
geedge-jira/md/OMPUB-758.md

126 lines
2.9 KiB
Markdown
Raw Normal View History

2025-09-14 21:52:36 +00:00
# 【E21现场】出现几分钟系统session records日志无法搜索展示出任何数据。
| ID | Creation Date | Assignee | Status |
|----|----------------|----------|--------|
| OMPUB-758 | 2022-12-28T20:59:01.000+0800 | 戚岱杰 | 已关闭 |
---
在2022-12-28 11:30:00左右在使用tsg系统查询session records出现几分钟系统session records日志无法搜索展示出任何数据。见附件
同时NZ系统上出现多台OLAP服务器OLAP High Memory Usage > 80%告警消息。(告警消息详情已导出见附件)**qidaijie** commented on *2022-12-30T10:36:59.431+0800*:
*情况描述:*
经描述当地时间11点出现日志查询超时现象从监控Dashboard出现ClickHouse节点内存告警持续20分钟左右11.38和11.40节点先后分别重启。
参考图Clickhouse宕机记录/Clickhouse内存告警
 
*问题排查:*
# 查看Clickhouse系统记录11点离线任务IP Learning程序运行每小时执行一次在同一时刻并行执行了20个左右的查询每个查询内存占用在5-20G左右磁盘IO使用率增加至60%左右11.38/40使用率到100%。
## 参考图Clickhouse资源-1 2 3/11.38查询日志/11.40查询日志
# 同时GoHangout 日志加载执行时间变长大约310分钟正常执行时间在20-40秒左右过长的执行时间导致Gohangout使用内存增加到近总内存的50%。
## 参考图异常时Gohangout资源/当天下午gohangout资源/第二日gohangout资源
# 拨测过程中字段发现3个小时范围的聚合统计慢查询大约50亿
综合上述情况OLAP 受到ClickHouse与Gohangout 混合部署影响并且在同一时刻骤增多条慢SQL查询导致服务器瞬时资源负载过高影响整体的查询操作体验或查询超时现象。
 
*问题处理:*
该issue未干预情况下待慢查询结束后系统恢复正常。后续综合分析慢查询SQL采取限制并发查询数量同时优化IP Learning 调度频率。
---
**qidaijie** commented on *2023-02-17T13:57:21.436+0800*:
补充慢查询详细SQL[^慢查询详细SQL内容.txt]
---
**liuju** commented on *2023-02-21T14:50:09.909+0800*:
目前暂未再复现该情况。
---
## Attachments
**33975/11.38查询日志.png**
---
**33976/11.40查询日志.png**
---
**33955/alert-message-2022-12-28+11-33-05.xlsx**
---
**33978/Clickhouse内存告警.png**
---
**33979/Clickhouse资源-1.png**
---
**33980/Clickhouse资源-2.png**
---
**33981/Clickhouse资源-3.png**
---
**33977/Clickhouse宕机记录.png**
---
**33985/当天下午gohangout资源.png**
---
**33982/第二日gohangout资源.png**
---
**35251/慢查询详细SQL内容.txt**
---
**33956/微信图片_20221228155321.png**
---
**33957/微信图片_20221228155327.png**
---
**33958/微信图片_20221228155334.png**
---
**33959/微信图片_20221228155337.png**
---
**33984/异常时Gohangout资源.png**
---