NVIDIA 在 Hot Chips 大會公布更多 Grace Hopper Superchip 技術資訊,以 Arm 與 GPU 異構挑戰 x86 壟斷的新星

2022.08.23 06:21PM
照片中提到了Daw 133、THE、O',跟英偉達有關,包含了英偉達grace cpu、中央處理器、圖形處理單元、ARM 架構家族

NVIDIA 在今年 GTC 大會公布首款針對異構 HPC 與 AI 運算的 Grace 與 Hopper 系統將於 2023 年問世, NVIDIA 藉 Hot Chips 34 大會進一步分享 Grace Hopper Superschip 的資訊與基礎效能, Grace Hopper 除了是 NVIDIA 首度進軍超算級 CPU 產品,更象徵 NVIDIA 結合 Arm 與自身在加速運算的技術結晶,希望能在幾乎被 x86 壟斷的加速運算與資料中心。

Grace 與 Hopper 是分別是 NVIDIA 針對下一代 HPC 與 AI 運算所策劃的 CPU 與 GPU ,其中 Grace 更是 NVIDIA 借助 Arm 技術所開發的高效能 CPU ,單一晶片具備 72 核 CPU ,其中 Grace CPU Superchip 由兩個 Grace 構成,達 144 核 CPU ,而 Grace Hopper Superchip 則是將 Grace CPU 與 Hopper CPU 相互連接構成異構晶片。

在 Hot Chips 34 , NVIDIA 進一步指出 Grace CPU 使用台積電 4nm 製程,也就是基於 5nm 製程的「 N4 」 改良版本,至於為何不是更先進的 3nm 製程?筆者認為從 Grace 的產品策畫時間加上鎖定追求穩定可靠的資料中心級應用,加上複雜的架構設計,穩定的成熟製程勢必比甫公布不久的先進製程來的可靠,別忘了 NVIDIA 也曾由於率先使用新製程吃過虧過。

以 Neoverse N2 為基礎的設計

雖然 NVIDIA 並未透露 Grace 是使用哪一種 Arm 架構,但從 NVIDIA 強調是基於 Arm Neoverse 運算級產品,同時使用 Armv9 指令級與支援 SVE2 ,幾乎可推測 Grace 是採用代號 Perseus Arm Neoverse N2 微架構,因為代號 Poseidon 的下一代產品預估要至 2024 年才會問世;另外 Grace 的 IO 將提供 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0 等通道。

NVIDIA 也在 Hot Chips 34 公布名為 NVIDIA SCF ( Scalable Coherency Fabric ) 的網狀連接網路架構,功能近似於 Arm 的 CMN-700 ; NVIDIA SCF 扮演為 CPU 、記憶體與 I/O 提供達 3.2TB's 頻寬的通道技術,以及做為雙 Grace CPU 或 Grace 與 Hopper 晶片連接到 NVLink-C2C 的通道技術。

照片中提到了NVIDIA GRACE、NVIDIA Scalable Coherency Fabric、- NVIDIA fabric and distributed cache design,包含了英偉達、英偉達、中央處理器、圖形處理單元、ARM 架構家族

▲每個快取交換節點分別與兩個 CPU 核心與兩個 SCF 快取分區連接,再藉由 SCF 構成網狀網路

NVIDIA 公布的 Grace 示意圖中, NVIDIA SCF 可支援超過 72 個以上的核心,並具備高達 117MB 的 L3 快取;其中一個 CSN (快取交換節點)與兩個核心以及兩個 SCF 快取分區( SCC )連接,同時 SCF 還可藉由 Coherent NVLink 實現四個插槽的一致性。

照片中提到了LPDDR5X、LPDDR5X、LPDDR5X,包含了中央處理器、中央處理器、圖形處理單元、英偉達、數據處理單元

▲ Grace 當中每 4 個 CPU 為一個群組

此外另一張圖片中,每個 Grace CPU 內的 CPU 以 4 CPU 為一個 Cluster ,單一 Grace CPU 具備之18 個 CPU Cluster ;同時單一 Grace CPU 可提供 68 路 PCIe 通道與 4 個 PCIe 5.0 x 16 通道,其中借助 PCIe 5.0 x 16 通道可提供高達 128GB/s 的雙向吞吐量,同時還具備 16 通道的 LPDDR5x 控制器。

使用 LPDDR5X 除了成本也是顧及能源效率

照片中提到了CPU、LPDDR5X、GRACE,包含了圖、英偉達、中央處理器、NVLink、ARM 架構家族

▲ Hopper GPU 可藉由 NVLink 存取 Grace 的 LPDDR5X 

另外,雖然目前許多超算產品會考慮使用 HBM 高頻寬記憶體,例如富士通的 A64FX 即是一個例子,而 Intel 的 Sapphire Rapids 也預計提供具備 HBM 的版本;然而 NVIDIA Grace 使用 LPDDR5X 的原因不僅只是考慮成本,也包括能源效率,畢竟相較 DDR5 , LPDDR5 仍有高出 53% 的頻寬以及僅 1/8 的能耗,並借助 32 通道達到 512GB 的記憶體總量與 546GB/s 的頻寬。

同時為了使異構更具效率, NVIDIA 也導入名為 EGM 的擴展 GPU 記憶體技術,只要是位於相同 NVLink 網路的 Hopper GPU ,即可直接存取同樣位於相同群組的 Grace CPU 的 LPDDR5X 記憶體,使 GPU 記憶體更大、且不需頻繁在 CPU 與 GPU 的記憶體之間不斷傳輸。

NVLink-C2C 不僅快,能源效率也優於 PCIe 5.0

照片中提到了wwwwww、www、essen enes,包含了英偉達、英偉達、圖形處理單元、中央處理器、ARM 架構家族

▲ NVIDIA NVLink-C2C 不僅達 900GB/s 頻寬,每單位傳輸能耗更僅 PCIe 5.0 的 1/5

為了解決 PCIe 組織規範與技術所提供的頻寬不足問題, NVIDIA 在多年前就投入 NVLink 通道技術的開發,如今新一代的 NVLink-C2C 不僅在晶片對晶片的傳輸性能達到 900GB/s ,可提供比起 PCIe 5.0 x 16 高出 7 倍的頻寬,同時除了作為 PCB 對 PCB 的高速連接通道外,還可作為矽晶對矽晶之間的連接技術。

不過 NVIDIA 導入 NVLink-C2C 還有另一項優勢,即是傳輸的能源效率, NVLink-C2C 具備 1.3 pj/b 的傳輸效率,相較 PCIe 5.0 的能耗僅有 1/5 ,甚至比起即將問世的新世代通用標準 UCIE 的 0.5-0.25 pj/b 仍有兩倍以上的表現。

雖然效能略遜 AMD Milan ,不過 Grace CPU 在能源效率以及與 GPU 協作更出色

照片中提到了Scores、800、700,包含了圖、集成電路、中央處理器、ARM 架構家族、英偉達

照片中提到了GB/s、500、400,包含了角度、熱芯片、中央處理器、集成電路、퀘이사존

照片中提到了GB/s、500、400,包含了角度、英偉達、熱芯片、集成電路、中央處理器

▲ Grace 雖然效能測試數據遜於 AMD EPYC Milan ,但能源效率與異構合作則有領先優勢

NVIDIA 也分享 Grace CPU Superchip 的性能,在使用單一 Grace CPU 的 SpeclntRate 2017 約為 370 分,不過 AMD 的 EPYC Milan  則有 384 至 424 分不等;但 NVIDIA 似乎在雙處理器的表現相當出色,使用雙 Grace CPU Superchip 可達到 740 分的表現。

不過純效能不是 Grace CPU Superchip 最大的殺手鐧,能源效率以及異構加速才是 NVIDIA 規劃 Grace CPU 的最大目的,這也是目前世代的 x86 CPU 競爭對手所不具備的特色;當然 AMD 與 Intel 也不是不知道這樣的情況,只是目前看來耕耘多年的 NVIDIA 仍在現階段有領先優勢。

資料來源