您的位置:首页 >科技 >正文

AMD的AI显卡MI355X实测来了:显存碾压N卡B200、优化算法弥补互联缺陷

导读 2026年5月,AI云服务商Zyphra发布首份基于AMD旗舰AI显卡MI355X的端到端大模型推理实测报告。测试在真实单节点环境下运行DeepSeek V3 2、Ki

2026年5月,AI云服务商Zyphra发布首份基于AMD旗舰AI显卡MI355X的端到端大模型推理实测报告。测试在真实单节点环境下运行DeepSeek V3.2、Kimi K2.6与GLM-5.1三款主流大语言模型,结果显示经系统级调优后的MI355X,在多项关键指标上已可与NVIDIA Blackwell架构旗舰B200形成实质性对标

一、硬件规格:显存容量碾压,互联带宽存短板

MI355X基于AMD CDNA 4架构,采用3nm制程工艺,配备288GB HBM3E高带宽显存,带宽达8TB/s。相比之下,NVIDIA B200的显存容量为180GB(部分报道为192GB),MI355X超出约60%

这一容量优势在处理超长上下文任务时尤为关键——单卡即可容纳更大规模的中间缓存,避免因显存不足而被迫拆分计算任务,从而降低多卡并行带来的硬件冗余与部署复杂度。

硬件层面的制约同样存在:B200通过NVLink技术实现任意两张显卡间高达900GB/s的互联带宽,而MI355X沿用点对点Infinity Fabric直连方案,理论峰值带宽为537.6GB/s。

二、软件优化:自研算法弥补互联短板

为弥合互联带宽的差距,Zyphra在软件层构建了针对性解决方案,自主研发了两项核心技术:

 
 
技术名称 作用
张量序列并行(TSP) 优化张量在序列维度上的并行处理
树状注意力(Tree Attention) 用树状通信结构替代传统环形拓扑,将解码过程中的计算逻辑与数据传输深度耦合

实测表明,尽管单请求绝对速度上NVIDIA B200仍占优势,但在长文本生成、上下文持续扩展等典型生产场景下,MI355X叠加算法优化后的整体吞吐能力已趋近B200水平。

三、多场景实测:推理与生成表现超越B200

1. 大模型推理:MLPerf v6.0对标B200/B300

在MLPerf Inference v6.0基准测试中,AMD提交了MI355X的单节点及多节点推理成绩:

 
 
测试场景 MI355X表现(对比NVIDIA)
Llama2-70B离线模式 与B200持平
Llama2-70B服务器模式 与B200持平
Llama2-70B交互模式 超B200达4%,达B300的104%
gpt-oss-120b 提交极具竞争力的首发成绩

MI355X在MLPerf v6.0中相比上一轮(v5.1)实现了4.4倍(离线)和4.8倍(服务器)的性能提升,主要得益于FP4量化和ROCm软件栈优化。

2. 文生图/视频:ComfyUI工作流领先20%-44%

AMD官方博客发布的ComfyUI测试显示,在ROCm 7.2软件栈支持下,MI355X在三种主流生成式AI工作负载上均超越B200:

 
 
工作负载 MI355X耗时 B200耗时 MI355X领先幅度
Wan2.2文生视频(1280×1280) 116.91秒 168.28秒 43.9%
FLUX.1-dev文生图(2560×2560) 24.77秒 35.09秒 41.6%
Hunyuan3D v2.1图生3D 21.51秒 25.84秒 20.1%

这些性能优势源于PyTorch Attention针对CDNA4架构(gfx950)的专项优化,包括AOTriton内核支持、占用率调优、流水线优化以及hipBLASLt GEMM改进。

3. 分子动力学:GROMACS吞吐量提升28%-50%

AMD官方博客发布的GROMACS测试显示,MI355X相比前代MI300X在分子动力学模拟中实现显著提升:

 
 
配置 MI355X吞吐量 MI300X吞吐量 提升幅度
1 GPU(分区模式) 2,065 ns/day 1,570 ns/day +31.5%
2 GPU(分区模式) 4,230 ns/day 2,822 ns/day +49.9%
4 GPU(分区模式) 8,350 ns/day 6,022 ns/day +38.7%
8 GPU(分区模式) 10,300 ns/day 8,026 ns/day +28.3%

在8 GPU配置下,MI355X达到10,300 ns/day的吞吐量,分区模式(CPX)相比非分区模式带来1.73倍加速。

4. 分布式推理:DeepSeek-R1 MoE模型表现亮眼

AMD技术博客显示,针对DeepSeek-R1这类混合专家(MoE)大模型,MI355X在单节点和多节点分布式推理中均展现竞争力:

  • 在单节点推理中,MI355X搭配自研ATOM推理引擎,在并发4至64范围内持续提供强劲性能

  • 在高并发(32和64)大規模部署中,MI355X吞吐量匹配甚至超越B200

  • 在1K/1K延迟敏感配置下,MI355X采用3节点EP8配置,每GPU吞吐量优于NVL72方案

四、AMD官方算力数据:FP6性能达B200 2倍

根据AMD官方公布的规格数据:

 
 
精度格式 MI355X算力 对比B200平台
FP6 18.45 PFLOPS 2.05倍于B200(MI350X平台)
FP8 9.228 PFLOPS
FP4 18.45 PFLOPS

需注意,上述数据为含稀疏性的峰值理论算力,实际表现取决于工作负载特征。

五、总结与展望

MI355X在显存容量上的绝对优势,使其在处理长文本、大模型推理等场景中具备天然竞争力。尽管互联带宽方面存在硬件短板,但通过TSP、Tree Attention等算法创新,实际吞吐量已逼近B200水平。

行业观察人士指出,Zyphra用实例证明只要底层软件栈优化足够好,AMD的AI显卡也能依靠大显存优势在长文本生产环境中与NVIDIA旗舰级产品正面竞争。基于此次实践积累,Zyphra已规划将该优化架构应用于1.6万亿参数规模的DeepSeek V4 Pro模型部署,并支持百万级token上下文长度。后续还将为MI355X定制低精度量化策略,并集成扩散式投机采样机制,持续释放硬件潜在算力AMD预计今年下半年将出货新一代MI450系列AI显卡,该系列将进一步缩小与NVIDIA的差距。

话题追踪