NVIDIA 在 Hot Chips 大會公布更多 Grace Hopper Superchip 技術資訊，以 Arm 與 GPU 異構挑戰 x86 壟斷的新星 (181669)

照片中提到了Daw 133、THE、O'，跟英偉達有關，包含了英偉達grace cpu、中央處理器、圖形處理單元、ARM 架構家族

NVIDIA 在今年 GTC 大會公布首款針對異構 HPC 與 AI 運算的 Grace 與 Hopper 系統將於 2023 年問世， NVIDIA 藉 Hot Chips 34 大會進一步分享 Grace Hopper Superschip 的資訊與基礎效能， Grace Hopper 除了是 NVIDIA 首度進軍超算級 CPU 產品，更象徵 NVIDIA 結合 Arm 與自身在加速運算的技術結晶，希望能在幾乎被 x86 壟斷的加速運算與資料中心。

Grace 與 Hopper 是分別是 NVIDIA 針對下一代 HPC 與 AI 運算所策劃的 CPU 與 GPU ，其中 Grace 更是 NVIDIA 借助 Arm 技術所開發的高效能 CPU ，單一晶片具備 72 核 CPU ，其中 Grace CPU Superchip 由兩個 Grace 構成，達 144 核 CPU ，而 Grace Hopper Superchip 則是將 Grace CPU 與 Hopper CPU 相互連接構成異構晶片。

在 Hot Chips 34 ， NVIDIA 進一步指出 Grace CPU 使用台積電 4nm 製程，也就是基於 5nm 製程的「 N4 」改良版本，至於為何不是更先進的 3nm 製程？筆者認為從 Grace 的產品策畫時間加上鎖定追求穩定可靠的資料中心級應用，加上複雜的架構設計，穩定的成熟製程勢必比甫公布不久的先進製程來的可靠，別忘了 NVIDIA 也曾由於率先使用新製程吃過虧過。

以 Neoverse N2 為基礎的設計

雖然 NVIDIA 並未透露 Grace 是使用哪一種 Arm 架構，但從 NVIDIA 強調是基於 Arm Neoverse 運算級產品，同時使用 Armv9 指令級與支援 SVE2 ，幾乎可推測 Grace 是採用代號 Perseus Arm Neoverse N2 微架構，因為代號 Poseidon 的下一代產品預估要至 2024 年才會問世；另外 Grace 的 IO 將提供 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0 等通道。

NVIDIA 也在 Hot Chips 34 公布名為 NVIDIA SCF ( Scalable Coherency Fabric ) 的網狀連接網路架構，功能近似於 Arm 的 CMN-700 ； NVIDIA SCF 扮演為 CPU 、記憶體與 I/O 提供達 3.2TB's 頻寬的通道技術，以及做為雙 Grace CPU 或 Grace 與 Hopper 晶片連接到 NVLink-C2C 的通道技術。

▲每個快取交換節點分別與兩個 CPU 核心與兩個 SCF 快取分區連接，再藉由 SCF 構成網狀網路

NVIDIA 公布的 Grace 示意圖中， NVIDIA SCF 可支援超過 72 個以上的核心，並具備高達 117MB 的 L3 快取；其中一個 CSN (快取交換節點)與兩個核心以及兩個 SCF 快取分區( SCC )連接，同時 SCF 還可藉由 Coherent NVLink 實現四個插槽的一致性。

▲ Grace 當中每 4 個 CPU 為一個群組

此外另一張圖片中，每個 Grace CPU 內的 CPU 以 4 CPU 為一個 Cluster ，單一 Grace CPU 具備之18 個 CPU Cluster ；同時單一 Grace CPU 可提供 68 路 PCIe 通道與 4 個 PCIe 5.0 x 16 通道，其中借助 PCIe 5.0 x 16 通道可提供高達 128GB/s 的雙向吞吐量，同時還具備 16 通道的 LPDDR5x 控制器。

使用 LPDDR5X 除了成本也是顧及能源效率

▲ Hopper GPU 可藉由 NVLink 存取 Grace 的 LPDDR5X

另外，雖然目前許多超算產品會考慮使用 HBM 高頻寬記憶體，例如富士通的 A64FX 即是一個例子，而 Intel 的 Sapphire Rapids 也預計提供具備 HBM 的版本；然而 NVIDIA Grace 使用 LPDDR5X 的原因不僅只是考慮成本，也包括能源效率，畢竟相較 DDR5 ， LPDDR5 仍有高出 53% 的頻寬以及僅 1/8 的能耗，並借助 32 通道達到 512GB 的記憶體總量與 546GB/s 的頻寬。

同時為了使異構更具效率， NVIDIA 也導入名為 EGM 的擴展 GPU 記憶體技術，只要是位於相同 NVLink 網路的 Hopper GPU ，即可直接存取同樣位於相同群組的 Grace CPU 的 LPDDR5X 記憶體，使 GPU 記憶體更大、且不需頻繁在 CPU 與 GPU 的記憶體之間不斷傳輸。

NVLink-C2C 不僅快，能源效率也優於 PCIe 5.0

▲ NVIDIA NVLink-C2C 不僅達 900GB/s 頻寬，每單位傳輸能耗更僅 PCIe 5.0 的 1/5

為了解決 PCIe 組織規範與技術所提供的頻寬不足問題， NVIDIA 在多年前就投入 NVLink 通道技術的開發，如今新一代的 NVLink-C2C 不僅在晶片對晶片的傳輸性能達到 900GB/s ，可提供比起 PCIe 5.0 x 16 高出 7 倍的頻寬，同時除了作為 PCB 對 PCB 的高速連接通道外，還可作為矽晶對矽晶之間的連接技術。

不過 NVIDIA 導入 NVLink-C2C 還有另一項優勢，即是傳輸的能源效率， NVLink-C2C 具備 1.3 pj/b 的傳輸效率，相較 PCIe 5.0 的能耗僅有 1/5 ，甚至比起即將問世的新世代通用標準 UCIE 的 0.5-0.25 pj/b 仍有兩倍以上的表現。

雖然效能略遜 AMD Milan ，不過 Grace CPU 在能源效率以及與 GPU 協作更出色

▲ Grace 雖然效能測試數據遜於 AMD EPYC Milan ，但能源效率與異構合作則有領先優勢

NVIDIA 也分享 Grace CPU Superchip 的性能，在使用單一 Grace CPU 的 SpeclntRate 2017 約為 370 分，不過 AMD 的 EPYC Milan 則有 384 至 424 分不等；但 NVIDIA 似乎在雙處理器的表現相當出色，使用雙 Grace CPU Superchip 可達到 740 分的表現。

不過純效能不是 Grace CPU Superchip 最大的殺手鐧，能源效率以及異構加速才是 NVIDIA 規劃 Grace CPU 的最大目的，這也是目前世代的 x86 CPU 競爭對手所不具備的特色；當然 AMD 與 Intel 也不是不知道這樣的情況，只是目前看來耕耘多年的 NVIDIA 仍在現階段有領先優勢。

資料來源

NVIDIA Blog

以 Neoverse N2 為基礎的設計

使用 LPDDR5X 除了成本也是顧及能源效率

NVLink-C2C 不僅快，能源效率也優於 PCIe 5.0

雖然效能略遜 AMD Milan ，不過 Grace CPU 在能源效率以及與 GPU 協作更出色

猜你喜歡

資料來源

Chevelle.fu

相關消息