2.2 KiB
2.2 KiB
【E21现场】SHQ-IGW站点Kafka_exporter进程打开太多文件
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-830 | 2023-03-01T22:06:58.000+0800 | 戚岱杰 | 已关闭 |
SHQ-IGW站点OLAP Hbase Down告警从2023-03-01 00:07:36 开始持续9h
修改句柄数,重启程序,目前告警已消除。qidaijie commented on 2023-03-08T10:46:21.065+0800:
经过确认,现场情况如下:
执行命令过程中,出现 Too many open files in system 错误信息,确认为打开文件数过多;系统配置的最大文件打开数为65535。
后确认PID为28748的进程出现异常,打开了57433个文件,该进程为kafka_exporter。 !进程打开文件数截图.png|thumbnail!
kafka_exporter进程出现异常时,服务请求kafka和NZ采集时,都会新打开一个文件。
HBase等组件是受kafka_exporter影响出现的告警,非组件问题。
现场处理方案:
临时增加了系统可打开的文件数到3263496;下次服务器重启时失效。
重启kafka_exporter容器后恢复正常。
问题原因:通过git issue查询到有相关问题[https://github.com/danielqsj/kafka_exporter/issues/54]
后续处置:
需要补充确认出现该问题具体时间点。
更新kafka_exporter版本至最新版本1.6.0测试。
qidaijie commented on 2023-03-20T18:14:21.932+0800:
根据历史时间监控查询,该问题是长期持续产生的。
!历史文件打开数.png|thumbnail!
后续处理:
- 未在Kafka服务正常的情况下复现该问题,更新版本问题需要长期观察。
- NZ增加文件句柄数告警规则,与22.11版本同步更新。
qidaijie commented on 2023-04-07T11:20:21.452+0800:
E现场已在22.11版本更新相关内容,后续持续观察该问题。
Attachments
Attachment: 进程打开文件数截图.png
Attachment: 历史文件打开数.png

