AMD公布Instinct MI350加速器與8晶片互連平台,2026年Instinct MI400直球對決NVIDIA Vera Rubin平台

2025.06.13 02:07PM

AMD在Advancing AI 2025活動公布新一代AI HPC加速平台Instinct MI350,強調AI運算性能提升4倍、推論性能更一口氣提高35倍,除了硬體架構的進化以外,同樣受益於推論性能提升4倍、訓練性能提升3倍的ROCm 7.0;此外AM還展望2026年即將公布的Instinct MI400,以及整合Instinct MI400、「Venice」EPYC CPU與Pensando「Vulcano」NIC的全新AI機架架構「Helios」,以更完善的產品陣容與系統向NVIDIA全面進攻。

採用CDNA 4架構與288GB HBM3e記憶體的Instinct MI350X與Instinct MI355X

▲Instinct MI350強調為生成式AI而生

▲Instinct MI350系列提供Instinct MI350X與Instinct MI355X

▲Instinct MI350採用OAM載板,單一載板可容納8張顯示卡

Instinct MI350系列包括Instinct MI350X與Instinct MI355X,兩者採用AMD CDNA 4加速運算架構,Instinct MI355X的性能較Instinct MI350X略高些許;Instinct MI 350系列強調是為新一代AI基礎設施需求所規劃,在FP4與FP6精度達20PF性能,強調於純AI運算性能提升達4倍、推論性能大舉提升35倍;同時採用由美光及三星提供的288GB HBM3e記憶體,可提供8TB/s的高頻寬,使執行AI推論、訓練具備更高的吞吐量。

▲AMD開放式機架強調可容納比競爭對手更多的128個GPU

Instinct MI350X與Instinct MI355X採用OAM模組;皆可選擇使用液冷或風冷架構,風冷機架可搭配最多64個GPU,而液冷機架則可配置高達128個GPU,強調比競品系統72個GPU更多,也帶來更大的單一機架記憶體總量,使單一機架最高可實現2.6 exaFLOPS的FP4/FP6性能,可大幅提升單位性能並降低成本。

大舉發揮硬體潛能的ROCm 7

▲ROCm 7訓練的性能提升達3倍

▲ROCm 7於推論提升3.5倍

AD的開源AI軟體平台ROCm宣布推出最新版本ROCm 7,相較ROCm 6無論在支援性、性能皆強調有長足的提升;ROCm 7的特色包括推論性能最多提升3.5倍以上,並支援FP4資料類型、FAv3新演算法,並使vLLM、SGLang等開源框架比閉源框架更快速的發展。

▲AMD也與雲端業者合作提供AMD Developer Cloud雲端託管開發環境

AMD強調ROCm 7正透過開放持續加速發展,ROCm Enterprise AI提供完善的MLOps,為企業提供能用於微調、合規及整合的解決方案,帶來安全、可擴展的企業AI應用;當前已有超過180萬個開箱即用的Hugging Face模型;為了進一步擴展ROCm,AMD也宣布AMD Developer Cloud雲端託管環境,具備不須設定的環境、預先安裝的Docker容器、Day-0可用的vVLLM、SGLang、HAO AI Lab等資源,使開發者能夠即時、容易取得ROCm與AMD GPU。

展望未來、Instinct MI400結合Helios AI機架與NVDIA Vera Rubin直球對決

AMD在活動上也預告2026年將推出新一代的Instinct MI400,同時以為大規模訓練與分散式推論設計的高度整合Helios AI機架提供更完善的解決方案(註:概念上近似於NVIDIA GB200 NVL72機架);Instinct MI400將搭載高達432GB的HBM4記憶體、達19.6TB/s的記憶體頻寬,於FP4精度(多用於推論)可達現行Instinct MI350系列一倍40PF,而FP8精度(多用於訓練)則可達20PF,同時具備300GB/s的橫向擴充頻寬。

▲Helios AI機架是AI新世代整合式系統,其UALink互聯架構性能與NVIDIA NVLink 7相當

Helios AI機架是一套整合系統平台,整合基於Zen 6架構AMD EPYC 「Venice」 CPU、Instinct MI400系列GPU和 Pensando 「Vulcano」 AI NIC以及ROCm軟體,能容納最多72個Instinct MI400 GPU,同時具備260TB/s的橫向擴展頻寬及開源的UALink互連技術。

▲NVIDIA在2026年的機架系統Vera Rubin NVL144可容納144個Rubin GPU

▲NVIDIA計畫2027年將推出576個GPU的Rubin Ultra NVL576

不過有趣的是,根據NVDIA於GTC 2025預告的Vera Rubin架構與機架系統Vera Rubin NVL 144,雖然Rubin GPU也同樣預計搭配288GB HBM4,然而機架系統則將進一步擴展至144 GPU,預期實現高達3.6 EF的FP4性能與1.2EF的FP8訓練;另外NVIDIA在2027年還備妥更大型的Rubin Ultra NVL572,單一機架系統可實現15 EF的FP4與5EF的FP8性能。