2.7 KiB
2.7 KiB
【XJ-NPM】 IDC环境日报数据异常
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-1016 | 2023-09-04T18:03:40.000+0800 | 戚岱杰 | 已解决 |
IDC环境日报中的:IDC网络质量报告,IDC租用方报告从8月7日起数据为空,经排查:server_idc_renter,client_idc_renter这两个字段从8月7号之后在CK库就没数据了。qidaijie commented on 2023-09-04T19:06:21.834+0800:
经过现场确认:
- 2023-8-6号IDC环境Flink集群231.133服务器出现僵尸进程,后对其进行内核升级操作。
- 内核升级后发现数据目录下所有文件丢失,后从231.134拷贝Flink及任务相关文件。
- 拷贝的配置文件与当时最近一次更新的内容不一致,导致ETL程序读取的内置知识库不完整,造成的该问题。
处置方式:核对修改配置文件,并重启任务后恢复正常。
!修复后CK库查询内容.png|thumbnail!
主要问题点:
目前任务配置文件存放在本地,且基于组件的特性,多数情况下只需要在第一台主节点上操作任务。
配置文件需要以人工scp到其他节点的方式来备份。
数据校验不完整,只对Location、ASN、tags做了校验。
jiayimeng commented on 2023-09-04T20:34:47.046+0800:
该问题导致8月7日后全部日报和月报因缺少数据,无法提交,是否有其他补救办法,目前已尝试通过location,province等字段填写月报中的疆内联通访问IDC,无法补齐。[~yinjiangyi] [~lizhao]
qidaijie commented on 2023-09-08T14:39:59.965+0800:
后续处置情况:
经过确认在异常期间(2023.8.7 - 2023.9.8)数据无损失,日志内 IDC租用方 字段内容缺失。
IDC月报程序通过离线SQL匹配知识库IP段的方式,将历史缺失字段补全;报告功能结果已恢复正常。
qidaijie commented on 2023-09-18T10:15:53.457+0800:
后续处置参考 GAL-404 任务,该问题关闭。
Attachments
Attachment: CK库排查情况.jpg
Attachment: IDC网络质量报告.png
Attachment: IDC租用方报告.png
Attachment: 修复后CK库查询内容.png



