NVIDIA Ampere 架構發表後的啟示:超算級與消費、準專業級架構差異化,嵌入設計進一步強化推論性能

2020.05.18 12:34PM
368

NVIDIA 在上周公布新一代 GPU 架構 Ampere 安培的設計特性,從目前公布的訊息, NVIDIA 也暗示它們在 GPU 產品線將會因應市場特性的不同自架構差異化,應用於超算領域的 NVIDIA A100 與自駕車領域的 Orin 都會是在特質與設計因應使用情境與消費級產品與繪圖產品截然不同的設計。後續 NVIDIA 執行長也透露 Ampere 將會是橫跨運算、繪圖與消費領域的架構,也證實 NVIDIA 將透過產業差異化在結構進行微調。

GTC 2020 : NVIDIA 發表地表最大 7nm 晶片、 Ampere 架構的 NVIDIA A100 GPU ,AI 性能提升 20 倍、具創新多重執行個體設計

NVIDIA 公布新一代自駕平台 Orin SoC 特性, 除 200TOPS 標準版外還推出僅 5W 、 10TOPS 之 Orin ADAS 版

從此次 Ampere 公布的資訊, Ampere 在特質是直接作為 Volta 的後繼產品,架構規劃放在 GPU 加速與 AI 加速之 Tensor Core 相關的部分,完全未提及與目前娛樂與繪圖相關的 RT Core 光線追蹤加速,畢竟在超算領域應用,重點是放在 GPU 運算與能夠提升運算效率的 AI 部分,至於 RT Core 自然在這些領域就不被需要。

此次 NVIDIA 在 CUDA 架構的部分並未做太多的著墨,僅以純性能象徵架構與設計的革新,介紹的重點反而是把重點放在第三代 TensorCore 上,相較 Volta 的第一代 TensorCore ,第三代 TensorCore 除再度針對需求日益提升的 AI 運算強化導入 TF32 之外,還以超算領域需要的 FP64 加入支援性,同時提升 AI 與超算所需的技術。

另一項特性則是 MIG 多重執行個體 GPU 特性,此項技術使單一 GPU 能夠視為多個執行個體進行同步多工,此舉可使單一 Ampere 作為多張 GPU 使用,這項技術可說是呼應基礎設施、邊際運算對於大量推論需求的技術, NVIDIA 特別強調基於 Ampere 的 NVIDIA A100 能夠透過 MIG 成為七張超越 Tesla T4 加速器的推論加速器,不過在消費端是否會提供這項技術則有待商榷。

▲ Orin 除了 Ampere 架構 GPU 以外,還具備針對推論加速的 DLA

值得注意的是, NVIDIA 藉此次發表的車載嵌入式超算平台 Orin 也是基於 Ampere 架構, 而在設計部分除了同樣具備 CUDA Tensor Core 外,也承襲 Xavier 平台加入針對推論的 DLA 加速器,因為在車載領域,無論是先進輔助駕駛、自動駕駛, AI 推論皆是重要的一環,然而要在有限的功耗達到效率的最大化,透過專屬核心進行硬體加速是比起擴充 GPU 或 CPU 規模更具效率的手段。

AMD 在去年在談論 GPU 架構時,指出它們將透過消費級的 RDNA 與運算級的 CDNA 進行產品差異化,指出不會在運算級架構加入用不到的設計,其實從各種資訊可以嗅出 AMD 指的是 NVIDIA 當時橫跨消費與運算的 Turing 圖靈架構具備運算級不需要的光線追蹤,也在消費級架構導入 AI 加速。現在新一代超算處理器的 NVIDIA A100 確實未具備 RT Core ,不過 AI 加速是否也是消費級不必要的應用呢?

照片中提到了Turing SM、16 TFLOPS + 16 TIPS、Concurrent FP & INT Execution,包含了英偉達、NVIDIA Quadro RTX 6000、圖靈、英偉達、圖形處理單元

▲消費與繪圖級的 Ampere 將繼續具備 CUDA 、 TensorCore 與 RT Core 

確實在 Turing 圖靈架構推出之際, NVIDIA 除了展示光線追蹤以外,也利用第一代 DLSS 技術設法降低影像繪圖的負擔、提升順暢度,不過畢竟當時過於早期,需要針對每個遊戲透過 NVIDIA 總部的系統建立獨立的 AI 模型,同時第一波展示遊戲的早期 DLSS 模型效果不彰,也使得玩家懷疑 AI 加速的必要性;不過除了後續藉由持續更新模型提升效率以外,在今年原定 GDC 時間, NVIDIA 藉發表針對筆記型電腦的 RTX Super 產品線宣布第二代 DLSS ,透過單一 AI 模型即可對應支援的遊戲引擎,大幅降低使用門檻。

從結果來說, AI 在遊戲娛樂並非多餘的設計,畢竟 AI 能夠使 GPU 與 RT Core 減少不必要的運算內容,使遊戲順暢度提升,這對於目前玩家已不再滿足 60fps 的更新率會有顯著的幫助,且對玩家亦可以較平價的硬體達到更好的順暢度(當然不可諱言 GPU 每一世代的價格又越來越高了...)。

照片中提到了PASCAL WAS DESIGNED FOR DX12、Metro Exodus、DXR On: 61 fps,跟英偉達有關,包含了多媒體、GeForce 10系列、DirectX光線追踪、光線追踪、GeForce

▲雖如光線追蹤、 AI 等都應用皆可利用 GPU 執行,但效率遠不及專屬的加速器

同時,先前亦有人質疑 NVIDIA 推出的 AI 語音降噪 技術RTX Voice 雖限制需要具備 Tensor Core 的 GPU 才能執行,但實際上仍能破解後透過 CUDA Core 執行,用以質疑 NVIDIA 為了推廣 AI 不擇手段,但這樣的情況就如同當時先進影片格式軟解與硬解的區別,利用 CUDA Core 確實可執行原本 TensorCore 的 AI 項目,但卻使用更多的能源才能進行。

故對於預期於今年下半年發表的新一代消費級 GeForce RTX 與 Quadro RTX ,除了將依循 Ampere 架構設計與 7nm 製程之外,也可預期在 RTX 級高階產品會全面具備 CUDA Core 、 TensorCore 與 RT Core 三大技術,與全新的 PCIe 4.0 通道技術,不過先前也傳出原本的 GTX 16 後繼的中高階產品線也將全面 RTX 化,或許能預估中低階產品很可能是以目前的 RTX 20 系列改採新製程與加入第三代 TensorCore 而來。

回應 0

0 則回應