NVIDIA 發表能縮減一半語言推論時間的 TensorRT 8 AI 套件,能提升對話式 AI 、推薦系統效益

2021.07.20 09:00PM

NVIDIA 宣布新一代的 AI 軟體套件 TensorRT 8 ,強調能夠使語言推論時間縮減一半,對於應用在搜尋引擎、廣告推薦、聊天機器人等帶來顯著的效益。TensorRT 8 針對語言相關應用進行最佳化,可在 1.2ms 執行龐大的 BERT-Large ,不須屈就性能縮減模型規模導致準確率下降。

▲藉由 Ampere 的結構化稀疏技術、量化感知訓練使 TensorRT 8 具更高的推論性能

TensorRT 8 得以大幅提升推論性能,除了軟體持續精進以外,更重要的是發揮 Ampere 架構兩項關鍵技術,其一是藉由結構化稀疏減少運算操作並提高效率,另一項關鍵是能夠以 INT8 精度執行卻不會縮減精度的量化感知訓練技術,在兩者相互結合之下使 TensorRT 8 推論性能再次提高。

 

▲ TensorRT8 搭配 NVIDIA A100 ,相較 TensorRT 7 搭配 NVIDIA V100 在 BERT 快了 2.5 倍

TensorRT 8 應用在當前 AI 語言認知的 BERT 能夠相益得張,不僅搭配 NVIDIA A100 執行 BERT 快了 2.5 倍,並可在 1.2ms 執行 BERT-Large 的推論,這也意味著各類語意認知應用如推薦系統、聊天機器人等能夠在極短的時間以比過往大 2 到 3 倍的模型作為基礎進行 AI 推論,能大幅提升語言認知的準確性並提高判斷的正確性。

▲各領域廣泛應用 TensorRT 開發 AI 應用,自大型數據中心到嵌入式產品皆有

TensorRT 自推出 5 年來廣泛被業界所採用,不僅只是 TensorRT 推出的早,能貫串 NVIDIA 自加速器、運算產品到嵌入式產品的 GPU 的統一開發平台、可移植性以及不斷提升效率等特色,使得 TensorRT 當前已被 27,500 家企業、達 35 萬開發者下載近 250 萬次,從資料中心到嵌入式、車載系統皆可看到 TensorRT 的應用。

▲許多串流影音服務、線上購物、社群、數位廣告使用的推薦系統是基於 TensorRT 為基礎

此次 NVIDIA 也與合作夥伴 Hugging Face 與 GE Health 公布部分應用成果, Hugging Face 藉由 NVIDIA GPU 、 TensorRT 8 執行 Hugging Face Accelerated Inference API ,達到 100 倍的加速效果,並達成僅 1ms 左右的 BERT 推論時間;至於 GE Health 將 TensorRT 應用於超音波醫療影像的機器視覺,藉由 Vivid E95 掃描儀拍攝的自動心臟圖結合基於 TensorRT 的機器視覺分析,實現近乎即時的心臟壁運動影像挑選與分析。

相關消息

蘋果新聞
《F1》電影將破 3 億美元全球票房 成蘋果史上最高收益電影
Mash Yang
18 個小時前
關於android播放3gp內含AAC無法撥放問題
hanawa
15 年前
Xbox Game「Lips」Model
stoneip
16 年前
達梭系統收購搜尋應用平台公司 Exalead
news.tw
15 年前
HP引領資料中心結構、伺服器延展性和應用程式自動化的新潮流
news.tw
15 年前
快訊
日亞網友一致推薦 3 款 MUJI 收納神器,線材零食都可以收得乾淨
Shopping guide
1 天前
快訊
送給媽媽的夢幻逸品,日本 Vermicular IH 琺瑯電子鑄鐵鍋,現在下單再送專屬食譜書
Shopping guide
2 個月前
快訊
樂維 RK 藍牙無線機械鍵盤只要 2290,CP 未免也太高
Shopping guide
1 個月前
新奇搞笑
貨幣博物館「裝滿百萬美元的展示箱」被認真魔人破解其實超裝55萬
Twelve
2 天前