Files
geedge-jira/md/OMPUB-830.md
2025-09-14 22:27:11 +00:00

2.2 KiB
Raw Permalink Blame History

【E21现场】SHQ-IGW站点Kafka_exporter进程打开太多文件

ID Creation Date Assignee Status
OMPUB-830 2023-03-01T22:06:58.000+0800 戚岱杰 已关闭

SHQ-IGW站点OLAP Hbase Down告警从2023-03-01 00:07:36 开始持续9h

修改句柄数,重启程序,目前告警已消除。qidaijie commented on 2023-03-08T10:46:21.065+0800:

经过确认,现场情况如下:

执行命令过程中,出现 Too many open files in system 错误信息确认为打开文件数过多系统配置的最大文件打开数为65535。

后确认PID为28748的进程出现异常打开了57433个文件该进程为kafka_exporter。 !进程打开文件数截图.png|thumbnail!

kafka_exporter进程出现异常时服务请求kafka和NZ采集时都会新打开一个文件。

HBase等组件是受kafka_exporter影响出现的告警非组件问题。

现场处理方案:

临时增加了系统可打开的文件数到3263496下次服务器重启时失效。

重启kafka_exporter容器后恢复正常。

 

问题原因通过git issue查询到有相关问题[https://github.com/danielqsj/kafka_exporter/issues/54]

 

后续处置:

需要补充确认出现该问题具体时间点。

更新kafka_exporter版本至最新版本1.6.0测试。


qidaijie commented on 2023-03-20T18:14:21.932+0800:

根据历史时间监控查询,该问题是长期持续产生的。

!历史文件打开数.png|thumbnail!

后续处理:

  • 未在Kafka服务正常的情况下复现该问题更新版本问题需要长期观察。
  • NZ增加文件句柄数告警规则与22.11版本同步更新。

 


qidaijie commented on 2023-04-07T11:20:21.452+0800:

E现场已在22.11版本更新相关内容,后续持续观察该问题。


Attachments

Attachment: 进程打开文件数截图.png

进程打开文件数截图.png

Attachment: 历史文件打开数.png

历史文件打开数.png