能溝通兩組 NVLink 並實現更多 GPU 串接的 NVSwitch 為何會出現、其運作特性又是如何

2018.05.04 06:02PM
Nvidia DGX-1, , Nvidia, NVLink, Nvidia Tesla, Volta, Graphics processing unit, Pascal, GPU Technology Conference - NVIDIA GTC  in San Jose, Drive PX-series, nvidia dgx 2, font, brand, multimedia

隨首場海外 NVIDAI 年度盛會 GTC 將在五月下旬於台灣舉辦, NVIDIA 也再度與媒體介紹與整理今年美國 GTC 所發表的重大技術,其中也進一步為 NVIDIA 新一代超級電腦 DGX-2 連接兩組 NVLink GPU 群組、帶來更高性能的關鍵元件 NVSwitch 晶片進行介紹。

當初 NVIDIA 為了打破過往運算由 CPU 主導、以及 GPU 與 GPU 之間需要透過 CPU 進行溝通的傳統運算框架,同時還有解決通用的 PCIe 頻寬不足問題,發表基於光纖的 NVLink 通道技術,此項技術能夠使支援此通道的 CPU 與 GPU 直接雙向溝通,以及 GPU 與 GPU ,使 CPU 與 GPU 具對等地位,同時共享連接在 NVLink 上的 CPU 與 GPU 的記憶體。

一套 NVLink 最多可連接 8 組 GPU (對系統來說更是將此 8 顆 CPU 視為單一大型 GPU 陣列),或是一顆 IBM Power CPU 搭配 4 張 NVIDIA GPU ,這項技術也用於 NVIDIA 首款超級電腦套裝 DGX-1 上。

TOP500, Nvidia DGX-1, NVLink, Graphics processing unit, , Nvidia, Volta, Nvidia Tesla, Pascal, PCI Express, dgx 2, text, product, font, product, product design, line, brand, angle, pattern, graphic design, Nvidia

 

到了 DGX-2 後, NVIDIA 為了進一步擴充 GPU 的數量,但又需考慮難以在現行規劃的 NVLink 框架加入更多通道,畢竟雖頻寬充裕,不過在 GPU 增加更多通道會使晶片設計更困難並增加 GPU 晶圓面積與複雜度,同時也需考慮與現行 NVLink 架構相容問題, NVIDIA 所提出的解決方案就是 NVSwitch 交換器晶片。

 

NVSwitch 並非作為取代 NVLink 的技術,而是使兩組 NVLink 共 16 顆 GPU 能夠互相具備全速溝通通道的手段;在設計上, NVLink 被加在每兩組 GPU 之間,兩組 NVLink 則在透過高速通道連接。此時 NVSwitch 就扮演每個 GPU 相互溝通時的通道切換角色,分屬兩個 NVLink 群組當中的 GPU 在相互溝通時,仍能藉由 NVSwitch 的通道切換維持 NVLink 提供的最大頻寬進行資料交換,彷彿兩組 NVLink 如同一套可達 16 顆 GPU 的陣列之內。

 

延伸閱讀: