4.2 KiB
【E21现场】经过观察LGH-PE流量40Gbps左右,也存在大量丢日志的情况
| ID | Creation Date | Assignee | Status |
|---|---|---|---|
| OMPUB-762 | 2023-01-03T15:43:47.000+0800 | 刘菊 | 处理中 |
经过观察LGH-PE流量40Gbps左右,也存在大量丢日志的情况,详情见附件。qidaijie commented on 2023-01-04T14:56:03.916+0800:
BJR-IGW与LGH-PE在7-16点之间,流量(45Gbps)、日志(5w/s)基本一致,选取两个站点进行对比。 !流量对比图.png|thumbnail! !日志量对比图.png|thumbnail!
排查情况:
1:通过监控观察到两个站点均没有大量读盘的情况,在写入140MB左右时,LGH-PE IO为80%,BJR-IGW为25%。
!IO情况对比.png|thumbnail!
2:通过dd命令生成100GB文件,测试写入性能,LGH-PE为100MB/s左右,BJR-IGW为400MB/s左右。 !LGH-PE dd测试结果.png|thumbnail! !BJR-IGW dd测试结果.png|thumbnail!
3:LGH-PE的虚拟机磁盘读写的缓冲(cache)模式不同,BJR-IGW及其他站点为unsafe模式;该模式为牺牲一定的数据完整性(服务器断电等情况下可能会损失数据)来换取性能。 !虚拟机配置对比图.png|thumbnail!
unsafe模式参考文档: [https://pve.proxmox.com/wiki/Performance_Tweaks] [https://forum.proxmox.com/threads/implications-of-qemu-cache-unsafe.79336/]
修改建议: 同步LGH-PE虚拟机磁盘读写的缓冲模式与其他站点一致。
liuyang commented on 2023-01-04T15:37:27.391+0800:
麻烦[~liuju]统计下所有站点PVE中是否设置:Data Transporter修改为48核,硬盘设置cache=unsafe
liuju commented on 2023-01-04T15:41:12.569+0800:
已统计完毕,其他站点均是Data Transporter修改为48核,硬盘设置cache=unsafe,只有LGH-PEData Transporter修改为48核,硬盘设置cache不为unsafe [~liuyang]
liuyang commented on 2023-01-04T16:08:35.075+0800:
[~liuju] 确认是否可以修改LGH-PEData Transporter硬盘设置cache=unsafe。 如果可以,屏蔽该设备告警,修复后恢复该设备告警。
liuju commented on 2023-02-21T15:23:33.162+0800:
[~liuyang] 调整磁盘缓存策略文档已整理https://jira.geedge.net/browse/OSS-261?filter=-3 文档洋姐你也看一下是否可行。直接屏蔽设备告警操作,有一定被发现的风险。
liuyang commented on 2023-03-02T10:54:57.794+0800:
没有权限看不到😂,虚拟机设置操作以工程部同事指导为准 可以等待TSG22.11升级时操作
Attachments
Attachment: BJR-IGW+dd测试结果.png
Attachment: IO情况对比.png
Attachment: LGH-PE+dd测试结果.png
Attachment: PVE虚拟机磁盘调整缓存策略_20230128.docx
Attachment: 流量对比图.png
Attachment: 日志量对比图.png
Attachment: 微信图片_20230103104257.png
Attachment: 微信图片_20230103104318.png
Attachment: 虚拟机配置对比图.png







