Files
geedge-jira/md/OMPUB-1052.md
2025-09-14 21:52:36 +00:00

138 lines
3.7 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 【E21现场】OLAP频繁出现多个告警
| ID | Creation Date | Assignee | Status |
|----|----------------|----------|--------|
| OMPUB-1052 | 2023-11-01T10:13:35.000+0800 | 戚岱杰 | 已解决 |
---
E21现场近期NZ中有多个OLAP的告警
* Disk_usages_data
* OLAP Data Transporter Logs/s Threshold
* OLAP High CPU Usage > 80%
* OLAP High Disk IO > 90%**qidaijie** commented on *2023-11-01T11:19:04.778+0800*:
Disk_usages_data告警与 OMPUB-1031 问题有关,可关注其评论。
---
**qidaijie** commented on *2023-11-06T11:25:47.476+0800*:
经确认OLAP High Disk IO > 90%告警均由Clickhouse服务器产生普遍持续10-20分钟。
* 该告警监控的是磁盘IO使用率即处理IO使用时间例如如果统计间隔 1 秒,该设备有 0.8 秒在处理 I/O而 0.2 秒闲置,那么该设备的 %util = 0.8/1 = 80%),该参数表示了一些设备的繁忙程度:
** 使用率可以暗示设备的繁忙程度即当前时段IO请求较多但即使%util 是 100%,因为磁盘阵列有并发能力,磁盘使用未必就到达了瓶颈。
* 对于Clickhouse数据库来说数据入库/查询/合并/TTL删除历史数据等操作均会产生IO请求。
* 通过资料和部分云平台IO监控应当从请求的平均队列长度、响应时间、使用率多个指标进行联合告警。
 
临时处置方案:暂将该告警置为失效。
 
---
**qidaijie** commented on *2023-11-07T10:42:45.993+0800*:
以下告警均由MWV-IGW产生。
 
OLAP Data Transporter Logs/s Threshold
* E现场各Data Transporter均为单机虚拟机环境增加P3级别日志量提示性告警阈值为15w/s用于在站点日志量较大时有相关提示记录。
* 该站点日志量普遍在15w以上流量峰值期间在20-24w。
* 本次版本升级前后该站点日志量没有太大差距,在历史也一直存在。
** !MWV-IGW日志量.png|thumbnail!!日志量提示告警.png|thumbnail!
 
OLAP High CPU Usage > 80%
* 该告警为OLAP机器通用的CPU使用率告警阈值为80%。
* 与上述告警相关MWV-IGW处理日志汇聚到国家中心所需要的CPU随之增加普遍在83%左右峰值在90-94%。
* 本次版本升级后程序优化处理能力提升CPU使用率远高于升级前因此每天会产生相关告警。
** !MWV-IGW CPU使用率.png|thumbnail!!MWV-IGW CPU使用率-历史.png|thumbnail!
 
综合以上信息上述告警均为MWV-IGW站点日志量较大产生且CPU也近乎处于满载状态。
---
**qidaijie** commented on *2023-11-15T15:41:24.590+0800*:
经过对ETL程序优化优化后流量高峰期CPU使用率较之前降低了40%左右。
!MWV-IGW优化后CPU使用率.png|thumbnail!
 
后续再持续观察。
---
**qidaijie** commented on *2023-11-17T14:31:16.440+0800*:
持续观察3天流量高峰期CPU使用率维持在50-60%,无明显波动。
!image-2023-11-17-14-31-24-886.png|width=419,height=330!
 
总结:
* 分中心处理程序经过优化CPU使用率较之前降低了40%左右高峰期CPU使用率维持在50-60%之间不再产生CPU相关告警。
* 随着处理能力提升OLAP Data Transporter Logs/s Threshold日志量提示告警阈值已提高至30万。
---
## Attachments
**47496/image-2023-11-17-14-31-24-886.png**
---
**46740/MWV-IGW_TaskManager_20231101_1030.html**
---
**46741/MWV-IGW_TaskManager_20231101_2030.html**
---
**46738/MWV-IGW+CPU使用率.png**
---
**46752/MWV-IGW+CPU使用率-历史.png**
---
**46689/MWV-IGW-KVM-DT001.html**
---
**46690/MWV-IGW日志量.png**
---
**47378/MWV-IGW优化后CPU使用率.png**
---
**46747/日志量提示告警.png**
---