admin/geedge-jira

Files

hello 795018e8e5 attachment link

2025-09-14 22:27:11 +00:00

3.0 KiB

Raw Blame History

【XJ-NPM】IDC环境 Hbase、Hadoop服务监控端口异常

ID	Creation Date	Assignee	Status
OMPUB-1026	2023-10-08T19:08:24.000+0800	戚岱杰	已解决

1.巡检时发现Hbase，Hadoop服务宕机告警,如附件1-1告警信息所示； 2.反馈至本地大数据同事，经排查Hbase，Hadoop服务正常，监控端口发生变化； 3.问题现状：（1）Hbase监控图表显示该服务频繁重启，24h内重启次数>10次，如附件1-2,1-3Hbase status所示; 且Hbase监控端口频繁发生变化，这种现状是否存在隐患情况以及如何处理？ (2)Hadoop监控端口发生变化后，哪吒监控端口还是原来端口，故有一台Hadoop一直显示宕机，是否需要将哪吒上监控端口换为Hadoop现在使用的端口或是使用其他解决方案？qidaijie commented on 2023-10-09T18:01:07.276+0800:

当前状态：

该问题与监控端口无关，为231.103服务器HregionServer和DataNode进程异常。

目前103数据节点已被移出集群，不影响正常使用。

详细情况：

1：HregionServer和DataNode进程启动时间在2023年3月15/16号，且没有重启记录。

!进程启动时间.png|thumbnail! 2：HregionServer最新日志时间是2023年9月22号，同时进入hbase的log目录后使用ll命令会卡死。

3：231.103上运行的Hadoop和HBase的主节点，均可正常提供服务器，界面可正常访问。

综上：怀疑HregionServer和DataNode进程存在假死或僵尸进程情况，需再确认。

qidaijie commented on 2023-10-11T11:39:26.548+0800:

经后续确认，该问题为HregionServer和DataNode僵尸进程导致，与GAL-248出现僵尸进程时现象一致。

!僵尸进程.png|thumbnail!

处理方式：通过升级Linux系统内核3.10.0-693.e17.x86_64到kernel-3.10.0-1160.el7.x86_64，重启后进程恢复正常，后续持续观察。

Attachments

Attachment: 1-1告警信息.png

Attachment: 1-2+Hbase+status.png

Attachment: 1-3+Hbase+status.png

Attachment: HBase界面.jpg

Attachment: HDFS界面.jpg

Attachment: 僵尸进程.png

Attachment: 进程启动时间.png