Files
geedge-jira/md/OMPUB-1358.md
2025-09-14 21:52:36 +00:00

1.2 KiB
Raw Blame History

【M22】YGN-FTR站点断电重启后出现”OLAP Yarn Server Down“告警

ID Creation Date Assignee Status
OMPUB-1358 2024-07-08T14:12:03.000+0800 王成成 已关闭

现象描述:

当地时间2024年7月8日03:30YGN-FTR站点发生断电持续至07:41恢复。随后出现”OLAP Yarn Server Down“告警排查发现以下现象

  • 相关节点服务器的重启日志中发现Yarn和Hdfs进程的频繁重启日志无其他相关日志。
  • 使用jps命令检查时发现存在Yarn和Hdfs进程。 
  • 使用ps命令未发现Yarn和hdfs进程。
  • 执行守护脚本中的启动命令返回以下信息 datanode running as process 2994. Stop it first。wangchengcheng commented on 2024-07-08T16:48:45.977+0800:

告警原因使用ps命令未发现Yarn和hdfs进程相关进程已挂掉由于pid文件存在导致守护脚本无法启动进程。启动时会报错datanode running as process 2994. Stop it first。 临时解决删除pid相关文件 后续解决:守护脚本(hadoop-2.7.1/sbin/dae-xxx.sh)在启动进程之前添加删除对应的pid文件(hadoop-2.7.1/pids/hadoop-root-xxx.pid)操作


Attachments