Meta推出功能更強大的開源大型語言模型Meta Llama 3,率先釋出8B與70B兩種參數版本、預計推出400B以上參數模型

2024.04.19 11:56AM

Meta宣布推出新一代開放大型語言模型Meta Llama 3,強調是目前功能最強大的開放式大型語言模型,初步先釋出8B參數(現行較常見應該是7B參數)與70B參數兩個版本,更大參數規模的模型仍在訓練與驗證,並後續預計釋出最大超過400B參數的版本;Meta強調Llama 3創下多項產業指標紀錄,提供更精確的推論能力,同時支援多語言、多語態以及提供更長的上下文語境,同時也秉持開放創新將提供給社群使用,透過Llama 3為基礎建立專屬內容。

Llama 3 模型預計將可於 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 等平台上使用,並由AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 等硬體平台支援運作。

Meta已在官網釋出模型,有興趣的開發者可前往下載:Meta Llama 3

▲Llama 3強調在現行同級參數的模型表現領先群雄

Llama 3全新的8B與70B參數模型較Llama 2同級參數模型有顯著的進步,透過預訓練語後訓練的進展使其具備突破性的表現,不僅改進錯誤拒絕率與改善一致性,同時提升模型反應的多樣性,也在推論、程式碼聲程與指令遵循等功能有所改善。

為了在真實情境有更好的體驗,Meta不僅在具第三方公信力的基準評估Llama 3的模型表現,也透過全新的人類評估集,透過1,8000個提示、涵蓋如尋求建議、腦力激盪、分類、封閉式問答、編寫程式碼、創意寫作、擷取訊息、扮演角色 / 人物、開放式問答、推理、改寫與總結在內的12種情境,同時為了避免模型在此評估集過度擬合,Meta也限制內部模型建立團隊對模型的存取。

▲Meta強調模型的建立與開發採取負責任的方式

此外,作為企業與社會責任的一環,Meta強調Llama 3的全新架構以系統性方式負責任的部署模型;在不同開發者依其最終目標設計的系統,Llama系統中的基礎模型由開發者掌控整體系統,並藉此消弭風險;在確保模型安全性方面,指令微調相當重要,故Meta透過內部與外部的紅隊測試確保安全性,利用人類專家與自動化方式產生對抗性提示,試圖引導有問題的回應,透過不斷迭代更新持續挑戰模型,同時為即將發行的模型進行安全微調。

隨著生成式AI迅速發展,Meta認為開放的方式式整合生態系並減輕潛在危害的重要方式;Meta正在更新其負責任使用者南(RUG),提供負責任的開發大型語言模型的全面性指南,Meta將依循其中敘述根據應用程式的內容指南,檢視與過濾所有輸入與輸出內容,並鼓勵開發者使用雲端服務供應商提供的內容檢核API與其他用於負責任部署的工具。

▲Llama 3預計釋出400B參數的模型

為了使開發者對於400B參數的Llama 3模型的突破性表現有所理解,Meta也釋出仍未達最終階段的400B參數模型預覽版的表現,雖然僅能做為參考,不過已經顯露相當驚人的結果。