NVIDIA 可說是引領異構加速 AI 技術的廠商,不過隨著 AI 加速技術廣泛被市場採納,有越來越多的競爭對手也推出 AI 加速器產品,並試圖挑戰 NVIDIA 的領先地位; NVIDIA 稍早公布第四年參與 MLPerf 基準測試成績,除了仍在各項基準測試維持出色的成績,已經上市兩年的 NVIDIA A100 GPU 仍席捲各項測試成績,在 8 項訓練測試奪下 6 項最快完成的成績,同時也是唯一一款能夠完成 MLPerf 訓練 2.0 八個完整測試項的平台,顯見 NVIDIA 加速平台不僅具備高效能,也能涵蓋各類主流 AI 訓練與加速。
▲ NVIDIA 的 Saleen 超算 AI 系統奪下 8 項中的 4 項冠軍
NVIDIA 與合作夥伴遞交的 MLPerf 成績占總體的 9 成,其中由 NVIDIA 自建的 AI 超算系統 Selene 在 8 項訓練測試當中佔據其中四項最快完成的出色表現,其它夥伴的系統也在另外兩項訓練測試取得領先,由 NVIDIA A100 所驅動的系統即佔其中 6 項冠軍,且相較其它競爭對手的架構無法執行其中的幾項訓練, NVIDIA A100 則能夠完成所有的訓練測試項。
▲ NVIDIA 與合作夥伴的系統共拿下 8 項測試中的 6 項冠軍,同時也是所有系統當中唯一能完整執行 8 個測試項的加速器產品
NVIDIA 強調,除了硬體架構的升級,不斷的軟體創新也是使 AI 效能持續提升的關鍵, NVIDIA 借助多項創新技術與功能使相同硬體也能再度突破,諸如提供降低作業負載的 CUDA Graphs 軟體,與用於 GPU 深度學習加速的 cuDNN 函式庫持續最佳化,還有能快速加載大量音訊、圖片與影片資料的 NVIDIA DALI 函式庫等,都能進一步提升 NVIDIA GPU 在 AI 深度學習的效能。
且值得注意的是,雖然 NVIDIA A100 已是 2 年前所推出的硬體架構,然而借助軟體堆疊不斷調整與提升, A100 平台相較第一次測試提升達 6 倍以上的效能,同時對比 NVIDIA 在 3.5 年前以 NVIDIA V100 參與 MLPerf 的效能提升達 23 倍, NVIDIA 也期許今年發表的 NVIDIA Hopper 架構能夠進一步帶來突破性的表現。此外 NVIDIA 也將這些成果提供給 MLPerf 的資源庫,並將成果放入 NGC 容器,供 NVIDIA GPU 的客戶也能享受這些成果。