Facebook 母公司 Meta 宣布繼 2017 年後再度採用 NVIDIA GPU 技術打造第二世代 AI 研究基礎設施 RSC ( Research SuperCluster ),目前已經完成第一階段的架設,採用 760 套 NVIDIA DGX A100 節點、共 6,080 個 A100 GPU ,並預計在 2022 年末第二階段完工後一舉擴充到 16,000 個 GPU ,推估性能達 5 exaflops 混合精度 AI 性能,規模勝於微軟 AI 研究室的 10,000 個 GPU ,屆時 RSC 將成為地表最大型的 A100 系統。
RSC 的目的是作為 Meta 新一代 AI 應用的基礎設施與研究系統,例如提供多人即時語音翻譯功能,使不同語言的使用者能夠在協作或遊戲時進行即時溝通,或是即時判斷有害內容、自然語言處理等,屆時第二階段完工後, Meta 的目標將是利用 RSC 訓練超過一兆的 AI 模型。
▲ RSC 基於 NVIDIA SuperPOD 架構,自規畫到完成僅花費 18 個月時間
受惠於 NVIDIA SuperPOD 架構, RSC 的建設過程縱使多少受到 COVID-19 影響,自規劃到落成仍僅花費 18 個月時間即完成第一階段的安裝,目前由 760 套 DGX A100 系統,以 NVIDIA Quantum 200Gb/s InfiniBand 連接,以 6,080 個 NVIDIA A100 提供 1,895 petaflops 的 TF32 算力,並由 Penguin Computing 提供託管服務與 AI 最佳化基礎設施,其中包括 46PB 儲存系統的 Altus 系統。
相較於 2017 年 Meta 所建設的第一代 AI 研究機構,當時使用 22,000 個 NVIDIA V100 Tensor Core GPU 組成,乍看下 RSC 系統的 GPU 數量完工後的 GPU 總數反而減少,但在新一代架構加持下, RSC 進行大型自然語言模型訓練速度較第一世代快 3 倍,而在機器視覺的性能一口氣提升 20 倍。