結合 PyTorch 2.0 與 ROCm 5.4 的 AMD Instinct MI250 已在大型語言模型逐漸追上 NVIDIA A100

2023.07.04 05:32PM

受到 NVIDIA 先期投入市場的軟硬體優勢, AMD 的 Instinct MI200 加速器系列雖獲得美國橡樹嶺實驗室新一代超級電腦 Frontier 採用,但市場討論度則仍較 NVIDIA 來的少;不過 AMD 也正努力的持續自軟體與硬體兩方面強化,根據 MosaicML 公布的部落格文章, AMD 的 Instinct 250 在 PyTorch 2.0 與 ROCm 5.4 的雙重加持下,已有著趨近 NVDIA A100 的效能,同時不須針對 AMD Instinct 修改代碼即可進行大型語言模型 LLM 訓練。

MosaicML 的官方部落客表示其軟體 MosaicML 可為 NVIDIA 與 AMD 提供包括 FP16 、 BF16 的支援,使其具備機器學習與大型語言模型訓練的強化,且不需更新任何代碼;最新版本的 MosaicML 更進一步釋放 AMD Instinct 加速器的性能。MosaicML 指稱, Instinct MI250 在進行 MPT-1B LLM 模型可在同一個檢查點呈現與 NVIDIA A100 幾乎相同的損失曲線,且由於 AMD 透過 ROCm 替代 CUDA 、 RCCL 替代 NCCL 等條件,不須變動代碼,甚至可在訓練過程於兩種架構切換。

▲固然 AMD 在單卡帳面效能、記憶體佔優勢,然而僅能串接 4 張對比競品的 8 張在最大效能仍難以追上(圖片來源: MosaicML )

以 Instinct MI250進行 MPT 的 1B 至 13B 參數訓練吞吐比較時, MI250 系統的每 GPU 吞吐量約莫為 NVIDIA A100 40GB 的 8 成、 NVIDIA A100 80GB 的 73% ,效能則分別達到 94% 與 85% ,雖未達 1:1 效能,不過 MosaicML 相信隨著 AMD 持續改善 ROCm 軟體,彼此的效能差距能進一步縮減。

▲ AMD 的效能有追上的趨勢,重點是可在不修改代碼的情況於 AMD 平台執行相同的 LLM 模型訓練

雖然 AMD Instinct MI250 在 FP16 效能、高達 128GB 的記憶體容量與 3,277GB/s 的記憶體頻寬等先天體質都勝過 NVIDIA A100 (畢竟晚了 NVIDIA A100 才上市),但回到系統建置考量, NVIDIA A100 在單一 4U 系統能夠擴充到 8 GPU , Instinct MI250 僅為 2U 型態最高 4GPU ,故單一系統的最高效能仍難以追上,或者是在需要相近層級的效能時,使用 AMD 加速器需比起 NVIDIA 加速器購買多一倍的系統。

然而,畢竟 NVIDIA A100 已是前一代產品,隨著 NVIDIA 新一代的 NVIDIA H100 系統陸續推出,現在 AMD 可能要寄望 Instinct MI300 能夠借助更龐大的記憶體與之一搏。但即便 AMD Instinct MI300 可進一步擴充到 8GPU , NVIDIA 以更進一步透過高速網路串接更大量的 GPU ,恐怕只論效能的最大化以及市場呼聲, AMD 也還仍需苦苦追趕;只是從市場的角度, AMD 應該有望取下一部分性價比導向以及不願看到 NVIDIA 獨大的系統訂單。

資料來源

相關消息

科技應用
EVOX《對話式 AI 白皮書》:掌握 AI 商務溝通新趨勢
癮特務
3 天前
即拍即印普普風概念印章,製造屬於自己的圖像
annti wang
15 年前
開箱評測
被評價為「每步都非常舒服」的恢復型拖鞋 2種熱賣的日常款比較
Gizmodo Japan
1 天前
文化創意
國家鐵道博物館第一階段開放 免費展區即有豐富內容、柴電工廠吸收新知
Chevelle.fu
21 個小時前
汽車未來
全新改款 BMW iX 豪華純電旗艦休旅強勢上市!「THE NEW BMW iX」現場直擊,亮點分享一次了解!
癮特務
10 天前
開箱評測
這麼薄卻可6裝置充電、總輸出達130W 這款Anker充電器規格簡直是拼命了
Gizmodo Japan
22 個小時前
開箱評測
可以與行李箱組合的三合一背包 我無法割捨Patagonia的理由
Gizmodo Japan
21 個小時前
產業消息
聯發科2025Q2手機營收佔52%預期旗艦天璣年內創造30億美金營收 首款2nm晶片維持9月設計定案
Chevelle.fu
1 天前
《奇妙之旅》家族競技展開 熱鬪場內容介紹
皮耶哈
15 年前