Files
geedge-jira/md/OMPUB-640.md
2025-09-14 22:27:11 +00:00

3.7 KiB
Raw Permalink Blame History

【E21现场】对比22.07和22.02 发现22.07日志量减少了接近1/3

ID Creation Date Assignee Status
OMPUB-640 2022-09-23T15:19:29.000+0800 戚岱杰 已关闭

现场问题会话日志丢失30%左右。qidaijie commented on 2022-09-29T18:47:10.433+0800:

问题描述: 1在流量高峰期日志量>45w/s时,当前峰值日志量70w/s分中心Flink汇聚日志出现负载不均情况致使Kafka个别节点写入量为其他节点的两倍。 2国家中心Gohangout无法及时处理该节点的数据积压的数据达到Kafka存储上限被删除最终导致了数据丢失。

处置进展: 1目前正在针对Gohangout进行性能优化减少积压造成的数据丢失情况。

后续持续观察


qidaijie commented on 2022-10-19T14:13:31.965+0800:

2022-10-05针对现场情况对国家中心Kafka进行配置回滚操作回滚后基本恢复正常。

!修复后数据监控曲线截图.png|thumbnail!

流量高峰期BOL-IGWMWV-IGW两个局点处理压力较大 有丢日志的情况DIR-IGWSSM-IGW处理有一定延迟。

!分中心数据延迟情况.png|thumbnail!


qidaijie commented on 2022-10-19T18:42:52.120+0800:

考虑通过增加Kafka分区和ETL插件并行度进行优化该问题。 对BOL-IGWMWV-IGW两个局点进行修改将Kafka分区和ETL插件消费并行度由20增加到30进行观察。 操作文档: [^优化分区数及Flink任务并行度文档-20221019.txt]


qidaijie commented on 2022-10-21T11:10:41.121+0800:

追加对DIR-IGW和SSM-IGW局点将Kafka分区和ETL插件消费并行度由20增加到30操作进行观察。


qidaijie commented on 2022-10-31T10:39:52.931+0800:

对IGW站点进行优化后观察一段时间目前通过NZ系统查看最近的日志量曲线图基本已经确认数据汇聚已恢复正常。 !E现场当前日志情况.jpg|thumbnail!


Attachments

Attachment: 20220929优化文档.txt

20220929优化文档.txt

Attachment: 20221005优化文档.txt

20221005优化文档.txt

Attachment: E现场当前日志情况.jpg

E现场当前日志情况.jpg

Attachment: Kafka异常截图_2.png

Kafka异常截图_2.png

Attachment: Kafka异常截图.png

Kafka异常截图.png

Attachment: 分中心数据延迟情况.png

分中心数据延迟情况.png

Attachment: 数据监控曲线异常截图.png

数据监控曲线异常截图.png

Attachment: 修复后数据监控曲线截图.png

修复后数据监控曲线截图.png

Attachment: 优化分区数及Flink任务并行度文档-20221019.txt

优化分区数及Flink任务并行度文档-20221019.txt