Files
geedge-jira/md/OMPUB-703.md
2025-09-14 22:27:11 +00:00

4.6 KiB
Raw Permalink Blame History

【K18现场】NZ系统报警但硬件设备正常

ID Creation Date Assignee Status
OMPUB-703 2022-11-23T13:13:32.000+0800 雷军 已关闭

客户反馈部分NP服务器出现报警但服务器运行正常请帮助排查~

 

12月7日

故障再次出现详见故障截图1 故障截图2。jiaojianzhi commented on 2022-11-23T13:16:57.307+0800:

附件是最近1小时、7天的信息以及报错信息


leijun commented on 2022-11-23T14:51:32.335+0800:

[~jiaojianzhi]  帮忙确认一下以下各组件链接地址是否可以访问

bifang-api : [http://10.4.62.3:8080/bifang/prometheus]

nginx :  [https://10.4.62.3/status/format/prometheus]

mysql :  [http://10.4.62.3:9104/metrics]


jiaojianzhi commented on 2022-11-24T18:51:07.489+0800:

业主自己重启了服务器。。重启之后故障解决了。


shizhendong commented on 2022-12-19T15:09:07.413+0800:

经排查NZ 展示 Endpoint 状态无误,状态为 Down 的 Endpoint 原因如下: Endpoint id: 1421 状态异常原因:该 endpoint 状态异常原因为Prometheus 拉取 Mterics 数据超时导致。 当前系统配置 default_scrape_timeout=30s通过 curl 请求 [http://10.1.61.1:9904/metrics] 超过 30s 未相应,通过 Prometheus targets 报错信息为 context deadline exceeded确认为超时导致的。

Endpoint id: 1423、1424 等 状态异常原因endpoint 所在服务器与 nz-agent 节点时钟不同步,导致指标数据异常,从而导致 endpoint 状态异常。

解决方式:恢复时钟同步正常。 时钟同步后endpoint 状态恢复正常。


jiaojianzhi commented on 2022-12-21T19:01:50.104+0800:

客户反应新增了很多ADC相关的报警详见附件图片


shizhendong commented on 2023-01-09T10:03:44.882+0800:

经排查NZ 展示 Endpoint 状态无误,状态为 Down 的 Endpoint 原因如下:

Error Msg: server returned HTTP status 502 Bad Gateway因板卡问题导致设备配置 Endpoint 状态异常。

异常的内容已添加至附件 [^ADC 设备异常 Endpoint 详细信息.xlsx]

[~jiaojianzhi] 请查阅


luqiuwen commented on 2023-01-09T10:57:10.476+0800:

2023年1月6日接[~jiaojianzhi] 报告现场ADC板卡的endpoint出现大量down的情况。登录交换板排查发现不能ping通MCN0ping 192.168.100.1初步判断MCN0已崩溃。因现场人员当日不能到数据中心处理此问题暂时搁置。


leijun commented on 2023-01-11T11:39:05.321+0800:

请[~jiaojianzhi] 帮忙查询以下信息

1、登录 10.1.62.2服务器,执行 docker ps 查看组件 STATUS 状态 Up 是否正常运行

如提示Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?

则执行 systemctl start docker 后再执行 docker ps

2、用浏览器确认以下链接地址是否可访问

redis: [http://10.1.62.2:9121/metric|http://10.1.62.2:9121/metrics]                

minio: [http://10.1.62.2:9090/minio/prometheus/metrics|http://10.1.62.2:9121/metrics]

3、确认10.1.62.2时钟是否同步正常

 

 


Attachments

Attachment: 59705d3cbe846d4df56282ee66ef462.png

59705d3cbe846d4df56282ee66ef462.png

Attachment: ADC+设备异常+Endpoint+详细信息.xlsx

ADC+设备异常+Endpoint+详细信息.xlsx

Attachment: photo_2022-11-23_11-14-14.jpg

photo_2022-11-23_11-14-14.jpg

Attachment: photo_2022-11-23_11-14-34.jpg

photo_2022-11-23_11-14-34.jpg

Attachment: photo.jpg

photo.jpg

Attachment: 故障截图1.jpg

故障截图1.jpg

Attachment: 故障截图2.jpg

故障截图2.jpg

Attachment: 客户反应新增的ADC告警.png

客户反应新增的ADC告警.png