1.2 KiB
1.2 KiB
【M22】YGN-FTR站点断电重启后出现”OLAP Yarn Server Down“告警
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-1358 | 2024-07-08T14:12:03.000+0800 | 王成成 | 已关闭 |
现象描述:
当地时间2024年7月8日03:30,YGN-FTR站点发生断电,持续至07:41恢复。随后出现”OLAP Yarn Server Down“告警,排查发现以下现象:
- 相关节点服务器的重启日志中发现Yarn和Hdfs进程的频繁重启日志,无其他相关日志。
- 使用jps命令检查时发现存在Yarn和Hdfs进程。
- 使用ps命令未发现Yarn和hdfs进程。
- 执行守护脚本中的启动命令返回以下信息 datanode running as process 2994. Stop it first。wangchengcheng commented on 2024-07-08T16:48:45.977+0800:
告警原因:使用ps命令未发现Yarn和hdfs进程,相关进程已挂掉,由于pid文件存在,导致守护脚本无法启动进程。启动时会报错datanode running as process 2994. Stop it first。 临时解决:删除pid相关文件 后续解决:守护脚本(hadoop-2.7.1/sbin/dae-xxx.sh)在启动进程之前添加删除对应的pid文件(hadoop-2.7.1/pids/hadoop-root-xxx.pid)操作