3.7 KiB
【E21现场】OLAP频繁出现多个告警
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-1052 | 2023-11-01T10:13:35.000+0800 | 戚岱杰 | 已解决 |
E21现场,近期NZ中有多个OLAP的告警:
- Disk_usages_data
- OLAP Data Transporter Logs/s Threshold
- OLAP High CPU Usage > 80%
- OLAP High Disk IO > 90%qidaijie commented on 2023-11-01T11:19:04.778+0800:
Disk_usages_data告警与 OMPUB-1031 问题有关,可关注其评论。
qidaijie commented on 2023-11-06T11:25:47.476+0800:
经确认OLAP High Disk IO > 90%告警均由Clickhouse服务器产生,普遍持续10-20分钟。
- 该告警监控的是磁盘IO使用率,即处理IO使用时间(例如,如果统计间隔 1 秒,该设备有 0.8 秒在处理 I/O,而 0.2 秒闲置,那么该设备的 %util = 0.8/1 = 80%),该参数表示了一些设备的繁忙程度: ** 使用率可以暗示设备的繁忙程度,即当前时段IO请求较多,但即使%util 是 100%,因为磁盘阵列有并发能力,磁盘使用未必就到达了瓶颈。
- 对于Clickhouse数据库来说,数据入库/查询/合并/TTL删除历史数据等操作均会产生IO请求。
- 通过资料和部分云平台IO监控,应当从请求的平均队列长度、响应时间、使用率多个指标进行联合告警。
临时处置方案:暂将该告警置为失效。
qidaijie commented on 2023-11-07T10:42:45.993+0800:
以下告警均由MWV-IGW产生。
OLAP Data Transporter Logs/s Threshold:
- E现场各Data Transporter均为单机虚拟机环境,增加P3级别日志量提示性告警,阈值为15w/s;用于在站点日志量较大时有相关提示记录。
- 该站点日志量普遍在15w以上,流量峰值期间在20-24w。
- 本次版本升级前后该站点日志量没有太大差距,在历史也一直存在。 ** !MWV-IGW日志量.png|thumbnail!!日志量提示告警.png|thumbnail!
OLAP High CPU Usage > 80%:
- 该告警为OLAP机器通用的CPU使用率告警,阈值为80%。
- 与上述告警相关,MWV-IGW处理日志汇聚到国家中心所需要的CPU随之增加;普遍在83%左右,峰值在90-94%。
- 本次版本升级后程序优化处理能力提升,CPU使用率远高于升级前;因此每天会产生相关告警。 ** !MWV-IGW CPU使用率.png|thumbnail!!MWV-IGW CPU使用率-历史.png|thumbnail!
综合以上信息:上述告警均为MWV-IGW站点日志量较大产生,且CPU也近乎处于满载状态。
qidaijie commented on 2023-11-15T15:41:24.590+0800:
经过对ETL程序优化,优化后流量高峰期CPU使用率,较之前降低了40%左右。
!MWV-IGW优化后CPU使用率.png|thumbnail!
后续再持续观察。
qidaijie commented on 2023-11-17T14:31:16.440+0800:
持续观察3天,流量高峰期CPU使用率维持在50-60%,无明显波动。
!image-2023-11-17-14-31-24-886.png|width=419,height=330!
总结:
- 分中心处理程序经过优化,CPU使用率较之前降低了40%左右,高峰期CPU使用率维持在50-60%之间,不再产生CPU相关告警。
- 随着处理能力提升,OLAP Data Transporter Logs/s Threshold日志量提示告警阈值已提高至30万。
Attachments
47496/image-2023-11-17-14-31-24-886.png
46740/MWV-IGW_TaskManager_20231101_1030.html
46741/MWV-IGW_TaskManager_20231101_2030.html
46738/MWV-IGW+CPU使用率.png
46752/MWV-IGW+CPU使用率-历史.png
46689/MWV-IGW-KVM-DT001.html
46690/MWV-IGW日志量.png
47378/MWV-IGW优化后CPU使用率.png
46747/日志量提示告警.png