Meta 與 NVIDIA 合作打造最大 NVIDIA A100 AI 超算系統 RSC ， 2022 年底將擴充到 16,000 個 GPU (171954)

Facebook 母公司 Meta 宣布繼 2017 年後再度採用 NVIDIA GPU 技術打造第二世代 AI 研究基礎設施 RSC ( Research SuperCluster )，目前已經完成第一階段的架設，採用 760 套 NVIDIA DGX A100 節點、共 6,080 個 A100 GPU ，並預計在 2022 年末第二階段完工後一舉擴充到 16,000 個 GPU ，推估性能達 5 exaflops 混合精度 AI 性能，規模勝於微軟 AI 研究室的 10,000 個 GPU ，屆時 RSC 將成為地表最大型的 A100 系統。

RSC 的目的是作為 Meta 新一代 AI 應用的基礎設施與研究系統，例如提供多人即時語音翻譯功能，使不同語言的使用者能夠在協作或遊戲時進行即時溝通，或是即時判斷有害內容、自然語言處理等，屆時第二階段完工後， Meta 的目標將是利用 RSC 訓練超過一兆的 AI 模型。

▲ RSC 基於 NVIDIA SuperPOD 架構，自規畫到完成僅花費 18 個月時間

受惠於 NVIDIA SuperPOD 架構， RSC 的建設過程縱使多少受到 COVID-19 影響，自規劃到落成仍僅花費 18 個月時間即完成第一階段的安裝，目前由 760 套 DGX A100 系統，以 NVIDIA Quantum 200Gb/s InfiniBand 連接，以 6,080 個 NVIDIA A100 提供 1,895 petaflops 的 TF32 算力，並由 Penguin Computing 提供託管服務與 AI 最佳化基礎設施，其中包括 46PB 儲存系統的 Altus 系統。

相較於 2017 年 Meta 所建設的第一代 AI 研究機構，當時使用 22,000 個 NVIDIA V100 Tensor Core GPU 組成，乍看下 RSC 系統的 GPU 數量完工後的 GPU 總數反而減少，但在新一代架構加持下， RSC 進行大型自然語言模型訓練速度較第一世代快 3 倍，而在機器視覺的性能一口氣提升 20 倍。

資料來源

Chevelle.fu

猜你喜歡

資料來源

Chevelle.fu

相關消息