NVIDIA Blackwell正式於MLPerf Inference基準測試活動亮相,於Llama 2 70B推論性能提升4倍

2024.08.29 04:50PM

NVIDIA在2024年3月的GTC大會公布全新架構的Blackwell加速器,隨著Blackwell步入量產急將出貨,Blackwell首次於MLPerf Inference v4.1基準測試活動亮相,並在所有資料中心測試項目刷新紀錄,其中於處理MLPerf最大LLM工作量的Llama 2 70B,相較NVDIA H100 Tensor Core GPU高出4倍。

▲Blackwell首次測試的成績相當亮眼

雖然Blackwell仗著新架構刷新各項紀錄,然而基於Hopper架構的NVIDIA H200 Tensor Core GPU也在此輪的於MLPerf Inference基準測試有亮眼的成績,在資料中心類別的各項測試裡均有著出色表現,包括新加入測試、有著467億個參數、每個token有129億個活躍參數的 Mixtral 8x7B 混合專家(MoE)LLM。MOE LLM具備單一部署回答多樣問題與執行多種任務,每次推論僅需啟動幾個專家,提供的速度比類似大小的密集模型更快。

▲雖然Hopper已經是上一代架構,但在產品生命週期仍持續透過軟體最佳化取得性能提升

 

且NVIDIA透過平台一致性以及持續推陳出新的軟體最佳化,仍能使繼有的架構在生命週期不斷提升性能,以NVIDIA H200為例,在經過軟體更新後處理生成式AI推論的性能提高27%,顯示客戶在投資NVIDIA平台的長期附加價值。

而隸屬NVIDIA AI平台的Triton開源推論加速器可搭配NVIDIA AI Enterprise軟體使用,能協助組織將特定框架的推論加速器整合至統一的平台,可降低在生產環境佈署AI的總持有成本(TCO),並將佈署模型的時間自數個月縮短為數分鐘,在這一輪的MLPerf測試,Triton推論伺服器的性能幾乎等於NVIDIA裸機測試結果,意味著企業不需在功能豐富的生產級AI推論伺服器與達到高峰值吞吐量取捨。

▲NVIDIA Jetson AGX Orin系統模組處理GPT-J LLM工作負載較前一輪傳輸量提升6.2倍、延遲改善2.4倍,使得邊際裝置得以進行流暢的自然語言溝通

NVIDIA的AI技術也同樣在邊際大放異彩,適用於邊際AI與機器人的NVIDIA Jetson平台可執行任何類型的本地端模型,諸如LLM、視覺Transformer模型與Stable Diffusion,在此輪測試中,NVIDIA Jetson AGX Orin系統模組處理GPT-J LLM工作負載較前一輪傳輸量提升6.2倍、延遲改善2.4倍,使開發者能透過此模型於邊際裝置提供與人類透過自然語言流暢溝通的體驗。

相關消息

科技應用
EVOX《對話式 AI 白皮書》:掌握 AI 商務溝通新趨勢
癮特務
3 天前
即拍即印普普風概念印章,製造屬於自己的圖像
annti wang
15 年前
開箱評測
被評價為「每步都非常舒服」的恢復型拖鞋 2種熱賣的日常款比較
Gizmodo Japan
17 個小時前
《奇妙之旅》家族競技展開 熱鬪場內容介紹
皮耶哈
15 年前
汽車未來
全新改款 BMW iX 豪華純電旗艦休旅強勢上市!「THE NEW BMW iX」現場直擊,亮點分享一次了解!
癮特務
9 天前
產業消息
聯發科2025Q2手機營收佔52%預期旗艦天璣年內創造30億美金營收 首款2nm晶片維持9月設計定案
Chevelle.fu
18 個小時前
開箱評測
這麼薄卻可6裝置充電、總輸出達130W 這款Anker充電器規格簡直是拼命了
Gizmodo Japan
12 個小時前
文化創意
國家鐵道博物館第一階段開放 免費展區即有豐富內容、柴電工廠吸收新知
Chevelle.fu
11 個小時前
產業消息
Figma 重啟 IPO 計畫 估值將達 193 億美金
Mash Yang
16 個小時前