在今年 NVIDIA GTC 大會的主題演講, NVIDIA 執行長黃仁勳一開始就談到後摩爾定律時代的革新,現在單線程效能的提升已經逐漸趨緩,而能夠在此世代引領革新的關鍵,可說是基於 GPU 的偕同運算,而在近五年更可看到整個業界對於機於 CUDA 的偕同運算技術獲得重視, GTC 與會人員與 CUDA 開發者亦大幅增長。
基於照片仿真與 VR 的多人 VR 應用 Project Holodeck
在今年 GTC 所宣布的第一項新技術,是稱為 Project Holodeck 的 VR 虛擬協作應用,結合 VR 與照片仿真技術,讓四個使用者可在同一環境檢視以照片仿真繪製的工業產品以及 3D 內容,可作為工業設計、內容製作應用。
黃仁勳也與瑞典超級跑車製造商 Koenigsegg 創辦人 Christian von Koenigsegg 連線,以 Project Holodeck 在 VR 環境中共同欣賞其最新的 Regera 混合動力超跑,再搭配及時運算,可進行全車結構的檢視,同時與參與 VR 會議的同夥置身在相同的 VR 環境中; Project Holodeck 預計在今年九月提供前期導入。
將深度學習用於 Ray Tracing 提升降噪效率
而後黃仁勳談到深度學習對於整個產業的影響,在我們所認知包括搜尋、影像辨識、圍棋、自動駕駛外,黃仁勳還指出深度學習亦可與 3D 影像的 Ray Tracing 的降噪技術結合,透過深度學習的方式學習包括影像去噪、光線反射等特性,使得設計 3D 模型後進行照片仿真的 Rendering 可更具效率且逼真。
SAP 將人工智慧用於廣告露出效益分析
同時 NVIDIA 也宣布 SAP 基於 DGX-1 超級電腦與 AWS 打造全球首個商業級人工智慧,這套系統被應用在商業廣告效益分析,透過客戶影像內容輸入到基於 NVIDIA 深度學習的 SAP 的機器視覺系統後,找出廣告在影片中的曝光情況;另外 SAP 也將這套系統應用在企業的發票分類處理,減少因人力導致出錯。
基於 Volta 架構的首款產品 Tesla V100
今年的重頭戲,就是宣布基於全新的 Volta 架構的第一款產品 Tesla V100 ,就如同當初宣布 Pascal 架構一樣先是以運算級的 Tesla 產品做為首發; Tesla V100 是一款擁有超過 210 億個電晶體的核心,採用台積電 12nm FinFET 製程,封裝尺寸約莫與 Apple Watch 相似,達到 815mm 平方。
Tesla V100 具備高達 5,120 個 CUDA 核心,記憶體採用三星 16GB HBM2 記憶體,達到 900GBs 傳輸速度,並具備全新的 NVLink 2 高速通道,達到 300GBs 的頻寬;同時針對深度學習搭載全新的 Tensor Core ,運算能力可達到 7.5 FP64 TFLOPS 、 15 FP 32 TFLOPS ,並由 Tensor Core 提供 120 Tensor TFLOPS 。而 Tesla V100 開發金額超過 300 億美金。
當然 Tesla V100 也不是只能做為人工製護應用,黃仁勳也展示由 Square Enix 以 Tesla V100 搭配遊戲引擎進行即時影像處理的 Kingsglaive: Final Fantasy XV 展示,人物與場景模組都採自電影素材,不過藉由高效能的 Tesla V100 達到宛若電影處理後的效果。
同時 NVIDIA 也展示 Tesla V100 在包括 Caffe 2 、 微軟 Cognitive Tookit 以及亞馬遜 mxnet 的效能提升,同時也請到亞馬遜 AWS 的深度學習與 AI 總經理 Matt Wood 分享深度學習如何結合 Alexa 產生技術與應用的革命。
Tesla V100 將提供從個人超級電腦到雲超級電腦的完整陣容
隨著 Tesla V100 , NVIDIA 也宣布三款不同層級的伺服器主機,包括企業級超級電腦 DGX-1V ,中小企業與個人版超級電腦 DGX Station ,以及與微軟合作的公眾雲超級電腦 HGX-1V ,其中 DGX-1V 與 HGX-1V 皆是將既有伺服器架構內的 GPU 從 8 張 Tesla P100 升級到 8 張 Tesla V100 的性能提升版,而 DGX Station 則是首度亮相的個人版超級電腦。
DGX-1V 的建議售價為 149,000 美金,不過若在 5 月 10 日後購入 DGX-1 的使用者,可免費升級到 DGX-1V 。
DGX Station 是一款 1,500W 電源供應、水冷設計的小型超級電腦,採用四張以 NVLink 2 貫串的 16GB Tesla V100 ,仍有高達 480 Tensor TFLOPS 的超高運算力,具備 3 個 DisplayPort ,售價為 69,000 美金。
針對 TensorFlow 的 TensorRT
此外,黃仁勳還宣布了針對 TensorFlow 的 TensorRT ( Tensor Run-Time )軟體,透過 TensorRT 使得 Volta 縮短 12 倍的訓練時間以及加速 6 倍的邏輯演算效能,以影像處理速度來說,也讓 Volta 的效能甚至相較 Tesla P100 高出 7 倍以上的處理能力。
針對 HyperScale 提供 FHHL 版 Tesla V100
此外針對 Hyperscale ,黃仁勳也介紹了另一種特殊的 Tesla V100 封裝,此種封裝並非採用 NVLink 介面,而是使用工業標準的 FHHL PCIe 介面,尺寸宛若 CD 盒般,僅有 150W TDP ,效能達到 Skylake 的 15-25 倍,能將原本需要 500 台 CPU 架構的 Node 才能達到的運算力,以 33 台基於 Tesla V100 加速的 Node 達成,大量減少熱排放與能耗。
讓 AI 開發者可從端到雲達到開發一致性的 NGC
同時黃仁勳還宣布了 NVIDIA GPU Cloud ( NGC ),讓人工智慧開發人員可藉由雲平台進行 AI 的開發並使用最新的深度學習框架,並且宣布 NGC 軟體套件,同時可在搭載 Titan X 或是 GTX 1080 Ti 的個人電腦以及 DGX-1 超級電腦甚至雲主機使用相同的軟體套件開發環境。 NGC 預計在今年第三季開始進行公眾測試,服務訂閱價格待後續宣布。
DrivePX 獲得豐田採用, Xavier 搭載的 Xavier DLA 加速器將開源
在自動駕駛領域,黃仁勳宣布日本豐田汽車將與 NVIDIA 合作,以其 DrivrePX 作為自動駕駛車的核心架構;同時也補充了關於新一代自動駕駛硬體平台 Xavier 的架構,除了客製化的 ARM 64 位元 CPU 以及 Volta GPU 以外,還具備稱為 Xavier DLA ( Deep Learning Accelerator )的深度學習加速器,可提供 10 Deep Learning TFLOPS 效能。
同時黃仁勳也宣布 Xavior DLA 將作為開源項目釋出,預計在 6 月進行前期釋出,而在 9 月正式進行開源。
ISAAC 機器人模擬器加速基於 Jetson 機器人訓練
此外也針對基於 Jetson 的機器人開發,宣布名為 ISAAC 的機器人模擬器,透過機於 NVIDIA 的 GPU 電腦模擬成 Jetson ,搭配 ISAAC 機器人模擬器進行虛擬培訓,能夠進行大量相同行為的機器人模擬學習,利用大量虛擬訓練結果,使機於 Jetson 平台的機器人培訓速度更快速。