Files
geedge-jira/md/OMPUB-703.md
2025-09-14 21:52:36 +00:00

157 lines
3.5 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 【K18现场】NZ系统报警但硬件设备正常
| ID | Creation Date | Assignee | Status |
|----|----------------|----------|--------|
| OMPUB-703 | 2022-11-23T13:13:32.000+0800 | 雷军 | 已关闭 |
---
客户反馈部分NP服务器出现报警但服务器运行正常请帮助排查~
 
12月7日
故障再次出现详见故障截图1 故障截图2。**jiaojianzhi** commented on *2022-11-23T13:16:57.307+0800*:
附件是最近1小时、7天的信息以及报错信息
---
**leijun** commented on *2022-11-23T14:51:32.335+0800*:
[~jiaojianzhi]  帮忙确认一下以下各组件链接地址是否可以访问
bifang-api : [http://10.4.62.3:8080/bifang/prometheus]
nginx :  [https://10.4.62.3/status/format/prometheus]
mysql :  [http://10.4.62.3:9104/metrics]
---
**jiaojianzhi** commented on *2022-11-24T18:51:07.489+0800*:
业主自己重启了服务器。。重启之后故障解决了。
---
**shizhendong** commented on *2022-12-19T15:09:07.413+0800*:
经排查NZ 展示 Endpoint 状态无误,状态为 Down 的 Endpoint 原因如下:
Endpoint id: 1421
状态异常原因:该 endpoint 状态异常原因为Prometheus 拉取 Mterics 数据超时导致。
当前系统配置 default_scrape_timeout=30s通过 curl 请求 [http://10.1.61.1:9904/metrics] 超过 30s 未相应,通过 Prometheus targets 报错信息为 context deadline exceeded确认为超时导致的。
Endpoint id: 1423、1424 等
状态异常原因endpoint 所在服务器与 nz-agent 节点时钟不同步,导致指标数据异常,从而导致 endpoint 状态异常。
解决方式:恢复时钟同步正常。
时钟同步后endpoint 状态恢复正常。
---
**jiaojianzhi** commented on *2022-12-21T19:01:50.104+0800*:
客户反应新增了很多ADC相关的报警详见附件图片
---
**shizhendong** commented on *2023-01-09T10:03:44.882+0800*:
经排查NZ 展示 Endpoint 状态无误,状态为 Down 的 Endpoint 原因如下:
Error Msg: server returned HTTP status 502 Bad Gateway因板卡问题导致设备配置 Endpoint 状态异常。
异常的内容已添加至附件 [^ADC 设备异常 Endpoint 详细信息.xlsx]
[~jiaojianzhi] 请查阅
---
**luqiuwen** commented on *2023-01-09T10:57:10.476+0800*:
2023年1月6日接[~jiaojianzhi] 报告现场ADC板卡的endpoint出现大量down的情况。登录交换板排查发现不能ping通MCN0ping 192.168.100.1初步判断MCN0已崩溃。因现场人员当日不能到数据中心处理此问题暂时搁置。
---
**leijun** commented on *2023-01-11T11:39:05.321+0800*:
请[~jiaojianzhi] 帮忙查询以下信息
1、登录 10.1.62.2服务器,执行 docker ps 查看组件 STATUS 状态 Up 是否正常运行
如提示Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?
则执行 systemctl start docker 后再执行 docker ps
2、用浏览器确认以下链接地址是否可访问
redis: [http://10.1.62.2:9121/metric|http://10.1.62.2:9121/metrics]                
minio: [http://10.1.62.2:9090/minio/prometheus/metrics|http://10.1.62.2:9121/metrics]
3、确认10.1.62.2时钟是否同步正常
 
 
---
## Attachments
**34315/59705d3cbe846d4df56282ee66ef462.png**
---
**34216/ADC+设备异常+Endpoint+详细信息.xlsx**
---
**33145/photo_2022-11-23_11-14-14.jpg**
---
**33147/photo_2022-11-23_11-14-34.jpg**
---
**33148/photo.jpg**
---
**33492/故障截图1.jpg**
---
**33493/故障截图2.jpg**
---
**33866/客户反应新增的ADC告警.png**
---