GTC 2017 : NVIDIA 主題演講引領 AI 革命,基於 Volta 架構的 Tesla V100 登場、 Xavier 將具備深度學習加速器

2017.05.11 03:21AM
是GTC 2017 : NVIDIA 主題演講引領 AI 革命,基於 Volta 架構的 Tesla V100 登場、 Xavier 將具備深度學習加速器這篇文章的首圖

在今年 NVIDIA GTC 大會的主題演講, NVIDIA 執行長黃仁勳一開始就談到後摩爾定律時代的革新,現在單線程效能的提升已經逐漸趨緩,而能夠在此世代引領革新的關鍵,可說是基於 GPU 的偕同運算,而在近五年更可看到整個業界對於機於 CUDA 的偕同運算技術獲得重視, GTC 與會人員與 CUDA 開發者亦大幅增長。

基於照片仿真與 VR 的多人 VR 應用  Project Holodeck

f1c73cbecf55ced652837d5b05aa371a
 

9671fb4e6669568b2036c55f54bcf5ef

在今年 GTC 所宣布的第一項新技術,是稱為 Project Holodeck 的 VR 虛擬協作應用,結合 VR 與照片仿真技術,讓四個使用者可在同一環境檢視以照片仿真繪製的工業產品以及 3D 內容,可作為工業設計、內容製作應用。

5403b63f2b47e28be7d3446580ab1cc1

efd07ad686f09a627eed750704bd1fe9

1a9356819ca3b2fad2b6bd3288b2514e

黃仁勳也與瑞典超級跑車製造商 Koenigsegg 創辦人 Christian von Koenigsegg 連線,以 Project Holodeck 在 VR 環境中共同欣賞其最新的 Regera 混合動力超跑,再搭配及時運算,可進行全車結構的檢視,同時與參與 VR 會議的同夥置身在相同的 VR 環境中; Project Holodeck 預計在今年九月提供前期導入。

將深度學習用於 Ray Tracing 提升降噪效率

248320363651cf9fc65ee65add8adcb1

3f7329a04ee3b9e9dde51188a1f20b1f

而後黃仁勳談到深度學習對於整個產業的影響,在我們所認知包括搜尋、影像辨識、圍棋、自動駕駛外,黃仁勳還指出深度學習亦可與 3D 影像的 Ray Tracing 的降噪技術結合,透過深度學習的方式學習包括影像去噪、光線反射等特性,使得設計 3D 模型後進行照片仿真的 Rendering 可更具效率且逼真。

SAP 將人工智慧用於廣告露出效益分析

88d66edc7c95272106ed1559bcb1430f

e202d140ff1088e5d2d9d3e684a6af2e

同時 NVIDIA 也宣布 SAP 基於 DGX-1 超級電腦與 AWS 打造全球首個商業級人工智慧,這套系統被應用在商業廣告效益分析,透過客戶影像內容輸入到基於 NVIDIA 深度學習的 SAP 的機器視覺系統後,找出廣告在影片中的曝光情況;另外 SAP 也將這套系統應用在企業的發票分類處理,減少因人力導致出錯。

基於 Volta 架構的首款產品 Tesla V100

c91253b94ade218725a397a1b99ea1c4

b98a4e3ee64bc75528ebf7cf732f2af6

a39ff5a90f3d75baffb216a429a7236c

今年的重頭戲,就是宣布基於全新的 Volta 架構的第一款產品 Tesla V100 ,就如同當初宣布 Pascal 架構一樣先是以運算級的 Tesla 產品做為首發; Tesla V100 是一款擁有超過 210 億個電晶體的核心,採用台積電 12nm FinFET 製程,封裝尺寸約莫與 Apple Watch 相似,達到 815mm 平方。

2b887798eb7802e96837197d3f6f9b2c

c987122950b5156ea67b661b1b0ef606

Tesla V100 具備高達 5,120 個 CUDA 核心,記憶體採用三星 16GB HBM2 記憶體,達到 900GBs 傳輸速度,並具備全新的 NVLink 2 高速通道,達到 300GBs 的頻寬;同時針對深度學習搭載全新的 Tensor Core ,運算能力可達到 7.5 FP64 TFLOPS 、 15 FP 32 TFLOPS ,並由 Tensor Core 提供 120 Tensor TFLOPS 。而 Tesla V100 開發金額超過 300 億美金。

05e029ba16936fded5861eb97c0938c2

b07ded436426cbc335d4425e6956becb

當然 Tesla V100 也不是只能做為人工製護應用,黃仁勳也展示由 Square Enix 以 Tesla V100 搭配遊戲引擎進行即時影像處理的 Kingsglaive: Final Fantasy XV 展示,人物與場景模組都採自電影素材,不過藉由高效能的 Tesla V100 達到宛若電影處理後的效果。

1842987122fa69f1376d157d278e0050

同時 NVIDIA 也展示 Tesla V100 在包括 Caffe 2 、 微軟  Cognitive Tookit 以及亞馬遜 mxnet 的效能提升,同時也請到亞馬遜 AWS 的深度學習與 AI 總經理 Matt Wood 分享深度學習如何結合 Alexa 產生技術與應用的革命。

Tesla V100 將提供從個人超級電腦到雲超級電腦的完整陣容

c43023d0b2bc709086385e3e2bada557

8c96dd187ae4ef32764d1da8977102d3

隨著 Tesla V100 , NVIDIA 也宣布三款不同層級的伺服器主機,包括企業級超級電腦 DGX-1V ,中小企業與個人版超級電腦 DGX Station ,以及與微軟合作的公眾雲超級電腦 HGX-1V ,其中 DGX-1V 與 HGX-1V 皆是將既有伺服器架構內的 GPU 從  8 張 Tesla P100 升級到 8 張 Tesla V100 的性能提升版,而 DGX Station 則是首度亮相的個人版超級電腦。

DGX-1V 的建議售價為 149,000 美金,不過若在 5 月 10 日後購入 DGX-1 的使用者,可免費升級到 DGX-1V 。

7de9f63ccabdffb4a76c6659fd2d5352

18b2529efa0a08d23f0521096503ece3

DGX Station 是一款 1,500W 電源供應、水冷設計的小型超級電腦,採用四張以 NVLink 2 貫串的 16GB Tesla V100 ,仍有高達 480 Tensor TFLOPS 的超高運算力,具備 3 個 DisplayPort ,售價為 69,000 美金。

針對 TensorFlow 的 TensorRT

1e2e532a4fed823efe9cdc31160035bd

此外,黃仁勳還宣布了針對 TensorFlow 的 TensorRT ( Tensor Run-Time )軟體,透過 TensorRT 使得 Volta 縮短 12 倍的訓練時間以及加速 6 倍的邏輯演算效能,以影像處理速度來說,也讓 Volta 的效能甚至相較 Tesla P100 高出 7 倍以上的處理能力。

針對 HyperScale 提供 FHHL 版 Tesla V100

056f4b18cdc1e31831baa739eb78097e

3f840c21c56f06dcd716a8831ad59601

cb929247a8763d0dedc73c70d720452f

此外針對 Hyperscale ,黃仁勳也介紹了另一種特殊的 Tesla V100 封裝,此種封裝並非採用 NVLink 介面,而是使用工業標準的 FHHL PCIe 介面,尺寸宛若 CD 盒般,僅有 150W TDP ,效能達到 Skylake 的 15-25 倍,能將原本需要 500 台 CPU 架構的 Node 才能達到的運算力,以 33 台基於 Tesla V100 加速的 Node 達成,大量減少熱排放與能耗。

讓 AI 開發者可從端到雲達到開發一致性的 NGC

ac4de15b955eb9a3c518896271bbed3c

同時黃仁勳還宣布了 NVIDIA GPU Cloud ( NGC ),讓人工智慧開發人員可藉由雲平台進行 AI 的開發並使用最新的深度學習框架,並且宣布 NGC 軟體套件,同時可在搭載 Titan X 或是 GTX 1080 Ti 的個人電腦以及 DGX-1 超級電腦甚至雲主機使用相同的軟體套件開發環境。 NGC 預計在今年第三季開始進行公眾測試,服務訂閱價格待後續宣布。

DrivePX 獲得豐田採用, Xavier 搭載的 Xavier DLA 加速器將開源

bc8028db933e4bd984c1be5189d4e6d2

5e5f75442de66c75dbbda8a7c27dac72

81ff1dd7c53aa121a8900a7bceb70b46

在自動駕駛領域,黃仁勳宣布日本豐田汽車將與 NVIDIA 合作,以其 DrivrePX 作為自動駕駛車的核心架構;同時也補充了關於新一代自動駕駛硬體平台 Xavier 的架構,除了客製化的 ARM 64 位元 CPU 以及 Volta GPU 以外,還具備稱為 Xavier DLA ( Deep Learning Accelerator )的深度學習加速器,可提供 10 Deep Learning TFLOPS 效能。

1b058684798905833c7c5dcac91b48ac

同時黃仁勳也宣布 Xavior DLA 將作為開源項目釋出,預計在 6 月進行前期釋出,而在 9 月正式進行開源。

ISAAC 機器人模擬器加速基於 Jetson 機器人訓練

a1cb25e2a5c5165d6f8d40cc5684b07b

8e2dea888a6a2429ffe753991d4d777e

此外也針對基於 Jetson 的機器人開發,宣布名為 ISAAC 的機器人模擬器,透過機於 NVIDIA 的 GPU 電腦模擬成 Jetson ,搭配 ISAAC 機器人模擬器進行虛擬培訓,能夠進行大量相同行為的機器人模擬學習,利用大量虛擬訓練結果,使機於 Jetson 平台的機器人培訓速度更快速。