Files
geedge-jira/md/OMPUB-605.md
2025-09-14 21:52:36 +00:00

3.4 KiB
Raw Blame History

【E21-OLAP】分中心升级到22.07后运行一段时间多个升级后的站点出现OLAP HBase Down告警

ID Creation Date Assignee Status
OMPUB-605 2022-09-01T21:22:40.000+0800 戚岱杰 已关闭

22.02-22.07 OLAP 分中心升级时发现分中心完成22.07版本升级且升级验证ok后程序运行一段时间会出现OLAP HBase Down告警经排查是hbase有问题可能为数据损坏导致。

目前已升级以下8个站点

2022-08-31

BOLE-IGW

2022-09-01 上午

SSM-IGW 、MWV-IGW 、DIR-IGW

2022-09-01 下午

BOL-PE、LGH-PE 、OAP-PE

现升级到22.07版本后出现OLAP HBase Down告警的有以下站点

BOL-IGW、MWV-IGW 、BJR-IGW 、DIR-IGWqidaijie commented on 2022-09-05T15:58:14.725+0800:

经过排查:

仅在IGW站点出现以下情况。

在功能端8月29日更新后HOS请求量突增服务使用的资源突增服务器资源基本满载。

!HOS成功请求.jpg|thumbnail! !HOS失败请求.png|thumbnail!

针对该现象进行了以下操作进行优化,对比测试:

BJR-IGW站点增加了HBase限流配置。

BOL、MWV、DIR、SSM增加了HOS限流配置。


qidaijie commented on 2022-09-06T16:50:59.318+0800:

经过确认在BJR-IGW修改的HBase配置无明显效果将还原之前修改的参数。 增加GC日志相关配置用以进一步确认问题 [^HBase故障排查-20220906.txt]


qidaijie commented on 2022-10-06T23:51:31.991+0800:

开启hbase的info日志后查看日志可以确定是GC时间过长导致的regionserver进程挂掉。GC时间为203s超过与zookeeper的连接超时时间180s因此进程被杀掉。 !hbase日志.png|thumbnail!

解决需要进行GC调优增大hbase regionserver内存。


qidaijie commented on 2022-10-19T16:14:27.203+0800:

经过讨论将MWV-IGW局点的HBase内存调整至40GB并观察该局点情况。

操作文档:[^HBase内存修改-20221017.txt]


qidaijie commented on 2022-11-02T17:02:58.483+0800:

经过一段时间观察MWV-IGW HBase修改内存后未再出现regionserver进程挂掉的情况未修改的局点任然有regionserver进程挂掉的情况。 !screenshot-1.png|thumbnail!

需要将剩余的Bole-IGW、Shashamane-IGW、Bahir Dar-IGW、Dire Dawa-IGW以及Bole-PE内存配置进行调整操作文档与之前一致。[~liuju]


liuju commented on 2022-11-14T14:50:34.254+0800:

内存配置调整已修改完毕。[~qidaijie] 


qidaijie commented on 2022-11-18T09:50:16.107+0800:

目前情况:

1在11.03号修改内存后持续运行10天查看各站点情况发现已无Region宕的情况。

!增加内存后情况图20221031-1114.png|thumbnail!

2主要的站点IGW以及BOLE-PE已完成修改后续等待现场升级22.11版本时,同步修改全部站点。


Attachments

30932/HBase故障排查-20220902.txt


30933/HBase故障排查-20220905.txt


30950/HBase故障排查-20220906.txt


31856/HBase内存修改-20221017.txt


31507/hbase日志.png


30909/HOS成功请求.jpg


30910/HOS失败请求.png


32530/screenshot-1.png


31869/增加内存后情况图.png


32919/增加内存后情况图20221031-1114.png