在去年舉辦的 HPC 年度盛會 SC18 大會上,基於 Arm 架構的 Astra 系統首度進入超級運算能源效率指標 Green 500 榜單中,也為 Arm 多年鋪陳進軍 HPC 跨出成功的一步,繼今年 ISC 大會 NVIDIA 宣布強化與 Arm 的合作後,在稍早的 SC19 大會, NVIDIA 也宣布攜手多家超算廠商,共同創造基於 Arm CPU 與 NVIDIA GPU 的 HPC 參考設計。
目前包括美國橡樹嶺實驗室、桑迪亞國家實驗室、英國布里斯托大學與日本理研等世界一流的超級電腦中心,皆已開始測試此次所發表的 Arm CPU 搭配 NVIDIA GPU 之參考設計平台。
▲ NVIDIA 與多家 Arm CPU 與 HPC 廠商共同建構 Arm + NVIDIA 的 HPC 參考設計
NVIDIA 執行長黃仁勳在 SC19 大會宣布這項由 Ampere 、 Fujitsu 、 Marvel 等 Arm 架構 HPC CPU 開發商、與 HPE 、 Cray 兩家現在已成一家的 HPC 平台製造商共同合作,並投入可在 Arm 架構伺服器執行的 NVIDIA CUDA-X 函式庫,構成自硬體到軟體的解決方案。
此次的合作也看好 Arm 架構 CPU 在多核心、設計彈性與能源效率方面的優勢,而 NVIDIA 也是 Arm 長期的合作夥伴,在行動裝置平台、嵌入式 AI 系統等有深度合作,然而此次的合作則是專注在 NVIDIA 於 HPC 以及 AI 領域的 GPU 加速優勢,結合專注於 Arm 架構 HPC 處理器的 CPU 業者,共創全新的 HPC 可能性。
除了提供 CUDA-X 函式庫對 Arm 的支援, NVIDIA 也將 GPU 加速相關開發生態環境導入 Arm 的 HPC 領域,諸如 GROMACS , LAMMPS , MILC , NAMD , Quantum Espresso和Relion 等,同時也與 Canonical,Red Hat,Inc.和 SUSE 等 Linux 發行商,自針對 Arm 架構的系統版本提供 NVIDIA GPU 加速的最佳化。
▲ Azure NDv2 為雲端帶來 HPC 等級的 GPU 運算性能
此外, NVIDIA 也在 SC19 宣布在 Microsoft Azure 提供全新的雲端 GPU 超算平台,這套平台稱為 Azure NDv2 ,是以 NVIDIA DGX SuperPOD 架構所架設的超算平台,透過單一組 Mellanox InfiniBand 連接達 800 個相互連接的 NVIDIA V100 TensorCore GPU ,使客戶可視訓練需求租用 HPC 等級的雲端資源,加速商用 AI 模型的訓練。
Azure NDv2 是將 AI 超級電腦帶到雲端的新型態,使 AI 研究員能藉由 AI 超級電腦的運算能力快速完成模型訓練,微軟與 NVIDIA 工程師為了展示其性能,藉由 64 套 NDv2 在 3 個小時內完成 BERT AI 對話模型的訓練,這也是拜 NVIDIA CUDA X 函式庫、 NCCL 對多 GPU 的最佳化與 Mellanox 實現多系統相互連接的成果。
除了 AI 模型訓練外,由於使用者可依照需求動用多組 NDv2 ,尤其對像是 LAMMPS 這一類針對分子動力學的複雜 HPC 分析,可藉由多 NDv2 進行 GPU 加速,實現高效率的併行模擬。
在 Azure NDv2 可執行完整的 GPU 最佳化 HPC 應用程式、機器學習與 NVIDIA NGC 容器,還有包括 Azure Store 的 TensorFlow , PyTorch 和 MxNe t 等深度學習框架。