4.1 KiB
【E21现场】OLAP在升级23.07版本后,部分Clickhouse服务器使用率超80%
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-1031 | 2023-10-12T21:13:20.000+0800 | 戚岱杰 | 已解决 |
OLAP在升级23.07版本后,Clickhouse服务器Server43、Server44、Server47、Server48、Server49的/data目录使用率超过80%,其余Clickhouse服务器/data使用率为40%--60%。qidaijie commented on 2023-10-13T10:07:40.880+0800:
现场排查:
数据情况:
Server35/36为Query节点,不存储数据,因此磁盘使用率较低。
对比存储配额趋势图,较升级前(2023-10-06)每天多3TB左右的数据。
其原因为22.11版本分中心ETL汇聚存在丢日志的情况,升级23.07后程序优化,除夜间最高峰时期(总量85w/s)会存在3-5%的日志丢失,其余时间均正常。
!存储配额趋势图.png|thumbnail!!日志量(总量).png|thumbnail!
存储配置情况:
现场存储配额:
Max Days设置为40天。
Security Events表TTL为40天,其余为30天,原因参考:OMPUB-860
对比Clickhouse表数据块时间:
Server43/44/47/48/49异常节点数据范围均为40天。
!异常节点数据片时间图.png|thumbnail!
对比Server37/38正常节点,session_record表数据范围为30天,security_event表数据范围为40天。
!正常节点数据片时间图.png|thumbnail!
通过Clickhouse查询表信息,Server43/44/47/48/49 session_record表均携带30天的TTL配置,参考:[^query.desc.session_record_local.txt]
综上,怀疑为表TTL在部分节点未成功删除数据。
qidaijie commented on 2023-10-13T17:50:41.508+0800:
目前已确认为Server43/44/47/48/49服务器Clickhouse未执行TTL,因TTL功能为组件自控制,未执行原因待后续继续排查,任务暂降级为Medium。
临时处置方式:通过手动触发的方式将Server43/44/47/48/49服务器session_record表,超过TTL配置时间(30天)的数据删除。
qidaijie commented on 2023-11-03T11:08:21.022+0800:
经过近期对比排查:
- 选取Server 43节点进行手动触发 session_record表单分区 的TTL操作,执行后该节点session_record表恢复TTL功能。 ** 后对Server 44节点进行上述重复操作,未恢复。
- 异常Clickhouse节点{}也在执行TTL删除操作{},但比其他正常节点慢,且{}无法完全删除{}全部的过期数据。 ** 例如:有300GB的文件需要删除,只删除了200GB。
- 整体观察Clickhouse集群数据节点,每个节点的数据摄入量、Merge频率没有较大差异。
后续继续排查,以及确认是否为Clickhouse TTL机制存在相关BUG。
qidaijie commented on 2023-11-24T19:13:29.431+0800:
目前现场保留Server 47和Server 49两个节点持续观察,其余节点TTL功能均已恢复正常。
qidaijie commented on 2024-01-04T10:05:56.047+0800:
后经过测试已复现该问题,为Clickhouse 21.x版本BUG,详细内容见:[Clickhouse TTL失效问题排查|https://docs.geedge.net/pages/viewpage.action?pageId=124752639]
qidaijie commented on 2024-02-22T11:28:20.154+0800:
后续操作:在NZ → Componet Status → Clickhouse Status中增加了未删除数据块个数相关监控图表,如图:
!TTL监控.png|thumbnail!
目前情况:Clickhouse节点使用率基本保持在35%左右,保留的Server 47和Server 49两个节点在50%左右,如下图:
!CK磁盘使用率-20240221.png|thumbnail!
由于该问题是由Clickhouse 21.x版本BUG引起,需升级版本解决;目前磁盘使用率相对较低,流量稳定的情况下使用率将维持在这个范围;暂将bug状态改为持续追踪状态。
Attachments
51963/CK磁盘使用率-20240221.png
45812/query.desc.session_record_local.txt
45799/sdb1.jpg
51962/TTL监控.png
45809/存储配额趋势图.png
45811/日志量(总量).png
45810/异常节点数据片时间图.png
45813/正常节点数据片时间图.png