30 lines
1.2 KiB
Markdown
30 lines
1.2 KiB
Markdown
|
|
# 【M22】YGN-FTR站点断电重启后出现”OLAP Yarn Server Down“告警
|
|||
|
|
|
|||
|
|
| ID | Creation Date | Assignee | Status |
|
|||
|
|
|----|----------------|----------|--------|
|
|||
|
|
| OMPUB-1358 | 2024-07-08T14:12:03.000+0800 | 王成成 | 已关闭 |
|
|||
|
|
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
*现象描述:*
|
|||
|
|
|
|||
|
|
当地时间2024年7月8日03:30,YGN-FTR站点发生断电,持续至07:41恢复。随后出现”OLAP Yarn Server Down“告警,排查发现以下现象:
|
|||
|
|
* 相关节点服务器的重启日志中发现Yarn和Hdfs进程的频繁重启日志,无其他相关日志。
|
|||
|
|
* 使用jps命令检查时发现存在Yarn和Hdfs进程。
|
|||
|
|
* 使用ps命令未发现Yarn和hdfs进程。
|
|||
|
|
* 执行守护脚本中的启动命令返回以下信息 datanode running as process 2994. Stop it first。**wangchengcheng** commented on *2024-07-08T16:48:45.977+0800*:
|
|||
|
|
|
|||
|
|
告警原因:使用ps命令未发现Yarn和hdfs进程,相关进程已挂掉,由于pid文件存在,导致守护脚本无法启动进程。启动时会报错datanode running as process 2994. Stop it first。
|
|||
|
|
临时解决:删除pid相关文件
|
|||
|
|
后续解决:守护脚本(hadoop-2.7.1/sbin/dae-xxx.sh)在启动进程之前添加删除对应的pid文件(hadoop-2.7.1/pids/hadoop-root-xxx.pid)操作
|
|||
|
|
|
|||
|
|
|
|||
|
|
|
|||
|
|
---
|
|||
|
|
|
|||
|
|
|
|||
|
|
|
|||
|
|
## Attachments
|
|||
|
|
|