# 【E21现场-OLAP】近期SSM-IGW OLAP Flink TaskManager Down 告警 | ID | Creation Date | Assignee | Status | |----|----------------|----------|--------| | OMPUB-808 | 2023-02-15T19:22:47.000+0800 | 戚岱杰 | 已关闭 | --- No description --- **qidaijie** commented on *2023-02-17T10:44:05.212+0800*: 问题原因:Flink taskmanager进程假死,导致日志数据无法处理产生告警。   现场情况: # 目前IGW站点均发现有较多非结构化文件写入的情况,其中MWV-IGW和SSM-IGW数量较大. # MWV-IGW和SSM-IGW局点,每天写入3TB+的eml文件;平均每秒300个请求,峰值1000左右。参考: !MWV和SSM-IGW磁盘存储情况.png|thumbnail! !SSM-IGW-HOS请求数量.png|thumbnail! ## 按照当前的写入量,存储余量最多可支持持续写入4天左右。 # Flink受到资源影响以及汇聚国家中心Kafka的处理延迟,数据堆在内存中无法及时处理,致使taskmanager进程重启。 ## HOS使用的资源占总资源的50%,Taskmanager无法及时处理数据,造成数据堆积。参考文件:[^MWV-SSM资源使用.txt] ## 使用SSL加密汇聚国家中心Kafka的处理延迟,比SASL用户认证方式延迟多1.3倍左右。参考文件:[^Kafka不同认证生产者延迟情况.txt] ## 通过监控可以观察到SSM-IGW的Taskmanager大部分时候可以自动恢复;但重启次数过多导致了进程假死。参考: !SSM-IGW-Taskmanager重启情况.png|thumbnail!   临时处理方案:HOS请求限速由2000修改100,并持续观察。 --- **qidaijie** commented on *2023-02-17T10:45:04.179+0800*: MWV-IGW/SSM-IGW/BJR-IGW/BOLE-IGW四个站点已修改HOS限速。 --- **qidaijie** commented on *2023-02-21T13:53:22.608+0800*:  DIR-IGW站点修改HOS限速。 --- **qidaijie** commented on *2023-02-27T15:21:45.085+0800*: 修改上述IGW站点HOS限速后,持续观察一段时间,未再出现相关情况。 !230222-27OLAP告警情况.png|thumbnail! --- # Attachments Attachment: 230222-27OLAP告警情况.png ![230222-27OLAP告警情况.png](https://gfwleak.exec.li/admin/geedge-jira/raw/branch/master/attachment/35526/230222-27OLAP告警情况.png) Attachment: Kafka不同认证生产者延迟情况.txt [Kafka不同认证生产者延迟情况.txt](https://gfwleak.exec.li/admin/geedge-jira/raw/branch/master/attachment/35233/Kafka不同认证生产者延迟情况.txt) Attachment: MWV-SSM资源使用.txt [MWV-SSM资源使用.txt](https://gfwleak.exec.li/admin/geedge-jira/raw/branch/master/attachment/35231/MWV-SSM资源使用.txt) Attachment: MWV和SSM-IGW磁盘存储情况.png ![MWV和SSM-IGW磁盘存储情况.png](https://gfwleak.exec.li/admin/geedge-jira/raw/branch/master/attachment/35224/MWV和SSM-IGW磁盘存储情况.png) Attachment: SSM-IGW-HOS请求数量.png ![SSM-IGW-HOS请求数量.png](https://gfwleak.exec.li/admin/geedge-jira/raw/branch/master/attachment/35225/SSM-IGW-HOS请求数量.png) Attachment: SSM-IGW-Taskmanager重启情况.png ![SSM-IGW-Taskmanager重启情况.png](https://gfwleak.exec.li/admin/geedge-jira/raw/branch/master/attachment/35234/SSM-IGW-Taskmanager重启情况.png) Attachment: 微信图片_20230215141453.png ![微信图片_20230215141453.png](https://gfwleak.exec.li/admin/geedge-jira/raw/branch/master/attachment/35153/微信图片_20230215141453.png) Attachment: 微信图片_20230215141917.png ![微信图片_20230215141917.png](https://gfwleak.exec.li/admin/geedge-jira/raw/branch/master/attachment/35154/微信图片_20230215141917.png) Attachment: 微信图片_20230215141928.png ![微信图片_20230215141928.png](https://gfwleak.exec.li/admin/geedge-jira/raw/branch/master/attachment/35155/微信图片_20230215141928.png)