AMD的AI显卡MI355X实测来了:显存碾压N卡B200、优化算法弥补互联缺陷

2026年5月,AI云服务商Zyphra发布首份基于AMD旗舰AI显卡MI355X的端到端大模型推理实测报告。测试在真实单节点环境下运行DeepSeek V3.2、Kimi K2.6与GLM-5.1三款主流大语言模型,结果显示经系统级调优后的MI355X,在多项关键指标上已可与NVIDIA Blackwell架构旗舰B200形成实质性对标。
一、硬件规格:显存容量碾压,互联带宽存短板
MI355X基于AMD CDNA 4架构,采用3nm制程工艺,配备288GB HBM3E高带宽显存,带宽达8TB/s。相比之下,NVIDIA B200的显存容量为180GB(部分报道为192GB),MI355X超出约60%。
这一容量优势在处理超长上下文任务时尤为关键——单卡即可容纳更大规模的中间缓存,避免因显存不足而被迫拆分计算任务,从而降低多卡并行带来的硬件冗余与部署复杂度。
硬件层面的制约同样存在:B200通过NVLink技术实现任意两张显卡间高达900GB/s的互联带宽,而MI355X沿用点对点Infinity Fabric直连方案,理论峰值带宽为537.6GB/s。
二、软件优化:自研算法弥补互联短板
为弥合互联带宽的差距,Zyphra在软件层构建了针对性解决方案,自主研发了两项核心技术:
| 技术名称 | 作用 |
|---|---|
| 张量序列并行(TSP) | 优化张量在序列维度上的并行处理 |
| 树状注意力(Tree Attention) | 用树状通信结构替代传统环形拓扑,将解码过程中的计算逻辑与数据传输深度耦合 |
实测表明,尽管单请求绝对速度上NVIDIA B200仍占优势,但在长文本生成、上下文持续扩展等典型生产场景下,MI355X叠加算法优化后的整体吞吐能力已趋近B200水平。
三、多场景实测:推理与生成表现超越B200
1. 大模型推理:MLPerf v6.0对标B200/B300
在MLPerf Inference v6.0基准测试中,AMD提交了MI355X的单节点及多节点推理成绩:
| 测试场景 | MI355X表现(对比NVIDIA) |
|---|---|
| Llama2-70B离线模式 | 与B200持平 |
| Llama2-70B服务器模式 | 与B200持平 |
| Llama2-70B交互模式 | 超B200达4%,达B300的104% |
| gpt-oss-120b | 提交极具竞争力的首发成绩 |
MI355X在MLPerf v6.0中相比上一轮(v5.1)实现了4.4倍(离线)和4.8倍(服务器)的性能提升,主要得益于FP4量化和ROCm软件栈优化。
2. 文生图/视频:ComfyUI工作流领先20%-44%
AMD官方博客发布的ComfyUI测试显示,在ROCm 7.2软件栈支持下,MI355X在三种主流生成式AI工作负载上均超越B200:
| 工作负载 | MI355X耗时 | B200耗时 | MI355X领先幅度 |
|---|---|---|---|
| Wan2.2文生视频(1280×1280) | 116.91秒 | 168.28秒 | 43.9% |
| FLUX.1-dev文生图(2560×2560) | 24.77秒 | 35.09秒 | 41.6% |
| Hunyuan3D v2.1图生3D | 21.51秒 | 25.84秒 | 20.1% |
这些性能优势源于PyTorch Attention针对CDNA4架构(gfx950)的专项优化,包括AOTriton内核支持、占用率调优、流水线优化以及hipBLASLt GEMM改进。
3. 分子动力学:GROMACS吞吐量提升28%-50%
AMD官方博客发布的GROMACS测试显示,MI355X相比前代MI300X在分子动力学模拟中实现显著提升:
| 配置 | MI355X吞吐量 | MI300X吞吐量 | 提升幅度 |
|---|---|---|---|
| 1 GPU(分区模式) | 2,065 ns/day | 1,570 ns/day | +31.5% |
| 2 GPU(分区模式) | 4,230 ns/day | 2,822 ns/day | +49.9% |
| 4 GPU(分区模式) | 8,350 ns/day | 6,022 ns/day | +38.7% |
| 8 GPU(分区模式) | 10,300 ns/day | 8,026 ns/day | +28.3% |
在8 GPU配置下,MI355X达到10,300 ns/day的吞吐量,分区模式(CPX)相比非分区模式带来1.73倍加速。
4. 分布式推理:DeepSeek-R1 MoE模型表现亮眼
AMD技术博客显示,针对DeepSeek-R1这类混合专家(MoE)大模型,MI355X在单节点和多节点分布式推理中均展现竞争力:
-
在单节点推理中,MI355X搭配自研ATOM推理引擎,在并发4至64范围内持续提供强劲性能
-
在高并发(32和64)大規模部署中,MI355X吞吐量匹配甚至超越B200
-
在1K/1K延迟敏感配置下,MI355X采用3节点EP8配置,每GPU吞吐量优于NVL72方案
四、AMD官方算力数据:FP6性能达B200 2倍
根据AMD官方公布的规格数据:
| 精度格式 | MI355X算力 | 对比B200平台 |
|---|---|---|
| FP6 | 18.45 PFLOPS | 2.05倍于B200(MI350X平台) |
| FP8 | 9.228 PFLOPS | — |
| FP4 | 18.45 PFLOPS | — |
需注意,上述数据为含稀疏性的峰值理论算力,实际表现取决于工作负载特征。
五、总结与展望
MI355X在显存容量上的绝对优势,使其在处理长文本、大模型推理等场景中具备天然竞争力。尽管互联带宽方面存在硬件短板,但通过TSP、Tree Attention等算法创新,实际吞吐量已逼近B200水平。
行业观察人士指出,Zyphra用实例证明只要底层软件栈优化足够好,AMD的AI显卡也能依靠大显存优势在长文本生产环境中与NVIDIA旗舰级产品正面竞争。基于此次实践积累,Zyphra已规划将该优化架构应用于1.6万亿参数规模的DeepSeek V4 Pro模型部署,并支持百万级token上下文长度。后续还将为MI355X定制低精度量化策略,并集成扩散式投机采样机制,持续释放硬件潜在算力。AMD预计今年下半年将出货新一代MI450系列AI显卡,该系列将进一步缩小与NVIDIA的差距。
话题追踪
-
[2026-05-20] AMD MI355X显卡经深度优化,推理性能对标英伟达B200 - 中关村在线
-
[2026-05-20] AMD MI355X实测:288GB显存碾压B200,软件优化弥补互联缺陷 - 超能网
-
[2026-05-19] AMD的AI显卡MI355X实测来了:显存碾压N卡B200、优化算法弥补互联缺陷 - 快科技
-
[2026-05-10] Accelerating ComfyUI Workflows on AMD Instinct™ MI355X GPUs with ROCm - AMD ROCm博客
-
[2026-03-12] GROMACS Performance on AMD Instinct MI355X - AMD ROCm博客
-
[2026-01-05] Single Node and Distributed Inference Performance on AMD Instinct MI355X GPU - AMD
-
[2025-11-14] Accelerating Data Center AI Leadership | AMD Instinct™ MI350 Series - AMD
