Files
geedge-jira/md/OMPUB-508.md
2025-09-14 21:52:36 +00:00

2.3 KiB
Raw Blame History

新疆移动扩容环境NEZHA 22.02版本 指标显示问题

ID Creation Date Assignee Status
OMPUB-508 2022-06-02T17:37:43.000+0800 史振东 已解决

   5月29日的省口运行环境例行巡检中通过nezha监控发现ck日志入库量骤降

!图1.png|thumbnail!

经反馈大数据排查ck无问题。

排查nezha步骤如下

1、表达式探索曲线与图1一致

2、裸指标探索29日凌晨nazha拉取指标的CK数量由37台降为11台

!图2.png|thumbnail!

3、数据源查看ck暴露的指标可以正常查看

!图3.png|thumbnail!

4、endpoint状态 up

!图4.png|thumbnail!

5、prometheus target状态 up

!图5.png|thumbnail!

6、prometheus 指标查询提供ck指标数量为37

!图6.png|thumbnail!

 

7、nezha相关程序均查看log并重启log无明显异常重启后nezha界面查询ck数量仍然是11个。

8、待排查fangshunjian commented on 2022-06-07T11:28:02.297+0800:

在 APM - Explore 页面

  • count(up{module="NC-Clickhouse"}) 检查数值是否等于 37 [~jiayimeng] 

jiayimeng commented on 2022-06-07T11:46:40.957+0800:

数值是37


fangshunjian commented on 2022-06-07T16:44:56.017+0800:

nz-agent cortex proxy 接口部分结果 error报空指针异常

!image-2022-06-07-16-44-04-571.png!


shizhendong commented on 2022-06-13T10:28:22.221+0800:

Bug产生原因 因 cortex  ingester 组件超过 用户 active series 最大数量,造成写入失败,导致上述 NEZHA 与 Prometheus 查询指标数量不一致问题。

定位:

  1. nz-agent cortex proxy 接口报错问题通过代码方式解决与该BUG无直接关系 

  2. 排查 prometheus 日志

  3. 排查 cortex 日志,发现 push error 日志,过滤后发现具体原因

!11111.png!

解决方式: 通过调整  limits_config.max_series_per_user 配置参数解决该问题

存在的其它问题nz-agent 代理接口、日志记录方式 (已解决)


Attachments

28658/11111.png


28447/image-2022-06-07-16-44-04-571.png


28400/图1.png


28401/图2.png


28402/图3.png


28403/图4.png


28404/图5.png


28405/图6.png