忆联UH812a以MLPerf Storage标杆级验证,重塑AI存储效能,奠定智能算力基石

随着AI大模型进入万亿参数时代,传统存储性能测试已难以真实反映存储系统在实际训练场景中对成本与效率的核心影响。为此,全球权威AI基准测评组织MLCommons正式推出MLPerf Storage基准测试套件,为行业建立起一套贴合实际、具有指导意义的权威评估框架。

区别于传统存储性能测试,MLPerf Storage基准的核心价值在于直接评估存储系统能否支撑GPU集群达到并维持高利用率——这直接决定了整体训练耗时与算力资源成本。该基准在v2.0版本中进一步引入Checkpoint工作负载,精准模拟大模型训练中的容灾恢复环节,使评测更贴近前沿场景的实际需求。

为评估忆联Gen5 eSSD UH812a在AI场景中的性能表现,本次测试基于MLPerf Storage v2.0默认参数展开,并特别针对对数据供给要求更高的NVIDIA H100加速器进行模拟验证,以检验存储系统能否充分适配新一代算力平台的性能需求。此次测试覆盖了MLPerf Storage v2.0包含的全部训练负载,包括U-Net 3D、ResNet50、CosmoFlow和Checkpoint。

结果显示,在四项训练模型中,UH812a的 GPU利用率均超过基准要求,表现出强劲的性能;同时在可支持的加速器数量上亦领先于行业同类产品,有力验证了其在高负载AI训练场景下可提供稳定且高性能的存储支持。

技术简介


测试环境


部件

配置信息

CPU

Intel(R) Xeon(R) Gold 6430  CPU @ 2.1GHz*2

内存

512 GB

存储

系统盘:Union Memory SATA 2*480 GB
数据盘:Union Memory UH812a 7.68 TB

Linux内核版本

Linux 6.17.4-1.el8.elrepo.x86_64

性能测试软件

MLPerf Storage v2.0


方案验证

测试结果


1. U-Net 3D训练场景

该场景模拟医疗影像等大体积3D数据的训练过程,要求存储系统持续为多个并发GPU客户端提供大型数据文件(单个约146MB),旨在测试存储的极限顺序读写带宽,确保GPU不会因数据供给不足而出现空闲等待。

在U-Net3D场景负载下,我们共计训练了42000个文件,模拟了1到5颗GPU的训练过程。如图1所示,UH812a在模拟5颗H100 GPU的负载下,实现了14566.46 MB/s的最高吞吐量,接近标称读带宽(14900 MB/s),此时GPU利用率(AU)达到最低96%,远高于基准所要求的90%以上水平。通过图1也可看见,UH812a的性能随着GPU数量增加而线性提升,且GPU利用率仅出现微弱波动,证明其在多客户端高并发访问场景下仍能持续提供稳定、高带宽的数据流。

图1:UH812a在不同数量H100环境下的性能测试结果

此外,在该场景测试中,UH812a可支持高达5颗H100加速器,优于对比竞品(仅支持4颗),凸显了其在大体积3D数据训练负载下更强的并发处理能力与性能优势。


图2:UH812a与竞品可支持的H100数量对比

2. ResNet50训练场景

此场景模拟常规图像分类模型的训练流程,要求存储系统能够应对海量GPU客户端的高并发、随机读取需求,处理大量小型图片文件(每个约150KB),从而充分考验存储系统的高IOPS和低延迟元数据处理能力。

在ResNet-50场景测试中,我们共计训练了19163个文件,模拟了10至78颗GPU的训练过程。如图3所示,在模拟78颗H100 GPU的负载下,UH812a实现了14008.66 MB/s的最大吞吐量,GPU利用率稳定在92.2%,同样超过基准要求(AU> 90%),体现出其能够为复杂训练任务持续提供充足的存储性能支持。

图3:UH812a在不同数量H100环境下的性能测试结果

另外,在此场景测试中,UH812a可支持高达78颗H100加速器同时高效工作,显著领先于竞品(分别为65颗和64颗)。这一优势表明,UH812a具备支撑更大规模AI训练集群的潜力,能为极致扩展的模型训练任务提供稳定可靠的数据供给基础。


图4:UH812a与竞品可支持的H100数量对比

3. CosmoFlow训练场景

该场景主要模拟气候、宇宙学等科学计算中的大规模训练任务,要求存储系统能够支持从8个到数千个客户端的GPU集群扩展,同时高效读取海量中等尺寸文件(每个约2MB)。其核心挑战在于存储系统的可扩展性与延迟稳定性——任何局部的访问延迟都可能拖慢整个分布式训练作业,因此对存储系统的并发处理与响应一致性要求更高。

在CosmoFlow场景的实际验证中,我们累计训练了971819个文本数据,并模拟了1至26颗GPU的训练过程。如图5所示,当加速器数量达到23颗及以上时,UH812a的吞吐量稳定维持在约14000MB/s,同时GPU利用率始终高于基准要求(AU>70%),展现出卓越的系统可扩展性与持续稳定的高并发数据供给能力。


图5:UH812a在不同数量H100环境下的性能测试结果

此外,在这一场景下,UH812a可支持26颗H100加速器,相比于竞品(支持21颗和16颗),支持GPU数量更多,可为高负载场景提供稳定可靠的存储服务。


图6:UH812a与竞品可支持的H100数量对比

4. Checkpoint训练场景

此场景模拟大模型训练中保存和恢复训练状态的关键操作,要求所有GPU同时将完整的模型状态(参数、优化器等,规模可达数TB)顺序写入存储,再快速读取。该过程是对存储系统高并发顺序读写带宽的终极考验,其性能直接决定了训练任务因中断而损失的时间。

在Checkpoint场景的实测中,受限于时间等因素,我们以Llama3-8b模型进行了写入测试,图7结果显示,UH812a的带宽达到13053.4 MB/s,较竞品A提升24%,较竞品B提升11%,可为用户提供高性能的读写体验。


图7:Llama3-8b模型下UH812a与竞品表现对比



MLPerf Storage v2.0的测试结果表明,UH812a能够充分满足前沿AI场景对存储系统的严苛性能需求,尤其在数据供给能力和稳定性方面展现出显著优势,性能领先于业界同类产品。这不仅印证了其在加速AI工作负载方面的卓越能力,也体现了其作为智能算力底座关键一环的核心价值。

未来,忆联将继续聚焦AI存储技术创新与产品研发,致力于通过更高性能、更可靠的存储解决方案,持续赋能智能算力基础设施建设,与产业伙伴共同推动人工智能技术的规模化落地与持续演进。









总结

资料下载
产品中心
企业级固态硬盘
数据中心级固态硬盘
消费级固态硬盘
嵌入式存储
标杆案例
技术方案
运营商
金融
互联网
云计算
大数据
消费电子
核心能力
存储控制器开发
固件设计
封装测试
解决方案
天工智能生产制造平台
忆联企业级存储创新中心
关于忆联
企业简介
企业文化
荣誉资质
大事记
联系我们
加入我们
新闻资讯
公司新闻
产品资讯
服务支持
下载中心
咨询与投诉
投资者关系
公司治理
管理团队
财务报告
最新公告
加入我们
社会招聘
校园招聘

深圳忆联信息系统有限公司

地址:深圳市南山区记忆科技后海中心B座19楼

电话:0755-2681 3300

邮箱:support@unionmem.com

  • 微信:
  • 官方微博

  • Copyright © 2020-2026 All Rights Reserved. 粤ICP备18155700号 技术支持:深圳忆联信息系统有限公司 法律声明 隐私政策