硬科技:HotChips 32的新牙膏NVIDIA A100篇

2020.10.13 04:27PM
688
照片中提到了1 11111 111 11、NVIDIA,包含了英維達·奧林、英偉達、英偉達驅動器、圖形處理單元、安培

不可否認的,以GPGPU為基礎,觸角逐漸延伸到人工智慧和自駕車輛等領域的NVIDIA,在2020年的夏天,NVIDIA的市值連續超車Intel和Samsung,證實了外界多麼看好「皮衣教主」昭示天下的「美好未來」(「未來性」是NVIDIA和AMD的最大差異點)。在「傳統」的個人電腦與高效能運算領域,「電競筆電非有Max-Q不可」的現象和Top500清單上滿滿的NVIDIA GPU,更象徵其牢不可破的優勢地位。

NVIDIA 市值首度超越 Intel 達 2480 億美元

NVIDIA's Next Generation GPU: Performance and Innovation for GPU Computing

但也因此,NVIDIA歷代GPU演進,就變成一個越來越相對無趣的議題,HotChips 32的A100議程,其內容和今年GTC 2020的簡報幾無兩致,唯一的明顯差別,只有這次把華為Ascend 910人工智慧處理器和Intel支援BF16格式的「新型Xeon」Cooper Lake-P拖出來狠狠打一頓,所以筆者也決定共襄盛舉,趁A100這個好機會,談談支撐NVIDIA的「長期潛在競爭優勢」。

照片中提到了NVIDIA DGX SUPERPOD SETS ALL 8、AT-SCALE AI RECORDS、Uniquely Able to Run Full Breadth of Networks,包含了文獻、英偉達、安培、圖形處理單元、跳板

照片中提到了NVIDIA A100 SETS ALL 8 PER-CHIP、Al PERFORMANCE RECORDS、Relative Speedup,包含了角度、英偉達、安培、圖形處理單元、英偉達

照片中提到了NVIDIA A100 DELIVERS、FASTEST PERFORMANCE AVAILABLE、Relative Per Chip Speedup,包含了情節、熱芯片、英偉達、人工智能、集成電路

長期關注繪圖技術的科科,應該都聽聞NVIDIA在Ampere世代,自行定義了TF32(Tensor Float 32)浮點數格式,講白了就是截長補短,既然Google的BF16犧牲掉FP32的精度,維持動態範圍不變,那就讓精度和FP16一樣吧,神奇的19位元長度TF32就這樣誕生了。

照片中提到了Sign、Range、Precision,包含了gpu FP32、單精度浮點格式、半精度浮點格式、bfloat16浮點格式、數據

NVIDIA之所以這樣大費周章創造新格式,根本目的不外乎要降低記憶體頻寬和容量的需求。但這件事的背後,隱隱約約透露了NVIDIA長期領先AMD(ATI)的根本原因。

照片中提到了A100 TENSOR CORE、SPARSE、X-factor SPARSE X-factor,包含了數、英偉達、人工智能、圖形處理單元、電腦硬件

照片中提到了INSIDE A100 TensorFloat-32 (TF32)、FP32、FP32,包含了組織、英偉達、英偉達DGX、PNY Tesla P100 16 GB高帶寬內存-黑色/綠色、圖形處理單元

照片中提到了HOW TO KEEP TENSOR CORES FED?、Required、data bandwidth,包含了圖、熱芯片、中央處理器、英偉達、人工智能

各位科科請用力回想過往GPU雙雄的效能戰爭,長期一直存在的特殊現象:要達成相同效能水準,AMD的同級產品,往往需要比NVIDIA高出許多的記憶體頻寬。這件事早在2004年的NV40(GeForce 6系列)記憶體控制器內建壓縮傳輸機能,相關技術持續演進並陸續申請專利,就已埋下了種子。

當GPU邁向泛用化並踏入高效能運算和人工智慧,「每個運算可分配到的記憶體頻寬,持續穩定下滑」,更讓提高運算效能這件事,絕非區區增加特化指令與執行單元布局空間,即可迎刃而解,更需搞定頻寬這件事,一旦頻寬不足,就發揮不出完整的效能。

淺談GPU到底是什麼(下):走向汎用化的GPGPU

照片中提到了A100 COMPUTE DATA COMPRESSION、Activation sparsity due to ReLU、Up to 4x DRAM+L2 bandwidth,包含了圖、熱芯片、人工智能、中央處理器、英偉達

有鑑於此,相較於微枝末節的「執行單元細項(尤其是很多「專業技術編輯」特別喜歡斤斤計較、卻又不自己寫程式去比較的Shader)」,每當GPU世代輪替,不學無術的筆者更寧願多花時間觀察這些廠商是打算怎麼解決頻寬不足的宿疾。

照片中提到了A100 SM DATA MOVEMENT EFFICIENCY、3x SMEM/L1 bandwidth, 2x in-flight capacity、V100,包含了圖、顯卡、英偉達、安培、人工智能

照片中提到了A100 L2 BANDWIDTH、Parallelize、across GPU,包含了圖、500強、英偉達、PNY NVIDIA Tesla V100 NVIDIA、圖形處理單元

照片中提到了A100 DRAM BANDWIDTH、Faster HBM2、Larger and smarter L2,包含了角度、字節、軟件、人工智能、英偉達

「砍掉重練」的Intel Xe與「終極APU」的AMD EHP能否拉進x86雙雄與NVIDIA的距離,總之還得慢慢觀察(要不然還能怎樣?),但也許NVIDIA耕耘十幾年的CUDA,才是比硬體技術更巨大的無形障礙。科科。

照片中提到了X Memory System、LP、SHARED FUNCTIONS,包含了英特爾xe lp、英特爾Xe、英特爾、圖形處理單元、顯卡

2 則回應

文化創意
可愛的蟹蟹工具組
Twelve
5 天前
可愛的蟹蟹工具組