3.7 KiB
【E21现场】对比22.07和22.02 ,发现22.07日志量减少了接近1/3
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-640 | 2022-09-23T15:19:29.000+0800 | 戚岱杰 | 已关闭 |
现场问题:会话日志丢失30%左右。qidaijie commented on 2022-09-29T18:47:10.433+0800:
问题描述: 1:在流量高峰期(日志量>45w/s时,当前峰值日志量70w/s),分中心Flink汇聚日志出现负载不均情况,致使Kafka个别节点写入量为其他节点的两倍。 2:国家中心Gohangout无法及时处理该节点的数据,积压的数据达到Kafka存储上限被删除,最终导致了数据丢失。
处置进展: 1:目前正在针对Gohangout进行性能优化,减少积压造成的数据丢失情况。
后续持续观察
qidaijie commented on 2022-10-19T14:13:31.965+0800:
2022-10-05针对现场情况对国家中心Kafka进行配置回滚操作,回滚后基本恢复正常。
!修复后数据监控曲线截图.png|thumbnail!
流量高峰期BOL-IGW,MWV-IGW两个局点,处理压力较大 有丢日志的情况,DIR-IGW,SSM-IGW处理有一定延迟。
!分中心数据延迟情况.png|thumbnail!
qidaijie commented on 2022-10-19T18:42:52.120+0800:
考虑通过增加Kafka分区和ETL插件并行度进行优化该问题。 对BOL-IGW,MWV-IGW两个局点进行修改,将Kafka分区和ETL插件消费并行度由20增加到30,进行观察。 操作文档: [^优化分区数及Flink任务并行度文档-20221019.txt]
qidaijie commented on 2022-10-21T11:10:41.121+0800:
追加对DIR-IGW和SSM-IGW局点,将Kafka分区和ETL插件消费并行度由20增加到30操作,进行观察。
qidaijie commented on 2022-10-31T10:39:52.931+0800:
对IGW站点进行优化后观察一段时间,目前通过NZ系统查看最近的日志量曲线图,基本已经确认数据汇聚已恢复正常。 !E现场当前日志情况.jpg|thumbnail!
Attachments
Attachment: 20220929优化文档.txt
Attachment: 20221005优化文档.txt
Attachment: E现场当前日志情况.jpg
Attachment: Kafka异常截图_2.png
Attachment: Kafka异常截图.png
Attachment: 分中心数据延迟情况.png
Attachment: 数据监控曲线异常截图.png
Attachment: 修复后数据监控曲线截图.png
Attachment: 优化分区数及Flink任务并行度文档-20221019.txt





