NVIDIA團隊釋出NVLM 1.9多模態大型語言模型,視覺語言媲美GPT-4o、Llama 3-V 40.5B、InternVL 2抗衡

2024.10.04 01:17PM

NVIDIA研究團隊重磅釋出NVLM 1.0開源多模態大型語言模型,最大版本NVLM-D-72B達720億參數(72B),開發團隊聲稱其視覺語言精確度媲美業界領先的GPT-4o私有模型以及Llama 3-V 40.5B、InternVL 2等開源模型,在舉出的例子甚至還包括理解迷因圖;不過NVLM 1.0旨在強化AI產業的發展,僅供作為研究,不允許商業使用。

▲以執行長黃仁勳的照片為例展現出色的指令追蹤能力,並為圖片提供高品質且詳盡的描述
▲甚至可以理解迷因圖背後想表達的意涵

NVIDIA研究團隊表示NVLM 1.0可在視覺語言與純文字的項目與領先的大型語言模型相當,甚至在OCRBench 和 VQAv2領先所有的模型,也強調在所有測試項均勝過或至少與私有的GPT-4o打平,同時NVLM-1.0 72B在多模態測試的表現也優於Google的Gemini 1.5 Pro。

資料來源

相關消息

科技應用
EVOX《對話式 AI 白皮書》:掌握 AI 商務溝通新趨勢
癮特務
3 天前
即拍即印普普風概念印章,製造屬於自己的圖像
annti wang
15 年前
應用教學
國家鐵道博物館開館 6處古蹟、8大展覽必參觀 藍皮火車預約搭乘方法看這裡
Zero圈圈
1 天前
開箱評測
2吋大螢幕、7.9mm羽量級厚度 Garmin Venu X1智慧手錶評測心得
Tandee
1 天前
汽車未來
全新改款 BMW iX 豪華純電旗艦休旅強勢上市!「THE NEW BMW iX」現場直擊,亮點分享一次了解!
癮特務
9 天前
App
三星One UI 8以Android桌面模式取代DeX
Chevelle.fu
3 天前
《奇妙之旅》家族競技展開 熱鬪場內容介紹
皮耶哈
15 年前
快訊
伊良可樂台灣首店即將開幕!排不到可以試試這款糖漿,肥仔快樂水自己做。
Shopping guide
1 天前
文化創意
日本Sony宣布LinkBuds Fit與初音未來合作 限量500套加贈壓克力架與AR模型
Chevelle.fu
1 天前