Meta推出功能更強大的開源大型語言模型Meta Llama 3，率先釋出8B與70B兩種參數版本、預計推出400B以上參數模型 (214261)

Meta宣布推出新一代開放大型語言模型Meta Llama 3，強調是目前功能最強大的開放式大型語言模型，初步先釋出8B參數(現行較常見應該是7B參數)與70B參數兩個版本，更大參數規模的模型仍在訓練與驗證，並後續預計釋出最大超過400B參數的版本；Meta強調Llama 3創下多項產業指標紀錄，提供更精確的推論能力，同時支援多語言、多語態以及提供更長的上下文語境，同時也秉持開放創新將提供給社群使用，透過Llama 3為基礎建立專屬內容。

Llama 3 模型預計將可於 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 等平台上使用，並由AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 等硬體平台支援運作。

Meta已在官網釋出模型，有興趣的開發者可前往下載：Meta Llama 3

▲Llama 3強調在現行同級參數的模型表現領先群雄

Llama 3全新的8B與70B參數模型較Llama 2同級參數模型有顯著的進步，透過預訓練語後訓練的進展使其具備突破性的表現，不僅改進錯誤拒絕率與改善一致性，同時提升模型反應的多樣性，也在推論、程式碼聲程與指令遵循等功能有所改善。

為了在真實情境有更好的體驗，Meta不僅在具第三方公信力的基準評估Llama 3的模型表現，也透過全新的人類評估集，透過1,8000個提示、涵蓋如尋求建議、腦力激盪、分類、封閉式問答、編寫程式碼、創意寫作、擷取訊息、扮演角色 / 人物、開放式問答、推理、改寫與總結在內的12種情境，同時為了避免模型在此評估集過度擬合，Meta也限制內部模型建立團隊對模型的存取。

▲Meta強調模型的建立與開發採取負責任的方式

此外，作為企業與社會責任的一環，Meta強調Llama 3的全新架構以系統性方式負責任的部署模型；在不同開發者依其最終目標設計的系統，Llama系統中的基礎模型由開發者掌控整體系統，並藉此消弭風險；在確保模型安全性方面，指令微調相當重要，故Meta透過內部與外部的紅隊測試確保安全性，利用人類專家與自動化方式產生對抗性提示，試圖引導有問題的回應，透過不斷迭代更新持續挑戰模型，同時為即將發行的模型進行安全微調。

隨著生成式AI迅速發展，Meta認為開放的方式式整合生態系並減輕潛在危害的重要方式；Meta正在更新其負責任使用者南(RUG)，提供負責任的開發大型語言模型的全面性指南，Meta將依循其中敘述根據應用程式的內容指南，檢視與過濾所有輸入與輸出內容，並鼓勵開發者使用雲端服務供應商提供的內容檢核API與其他用於負責任部署的工具。

▲Llama 3預計釋出400B參數的模型

為了使開發者對於400B參數的Llama 3模型的突破性表現有所理解，Meta也釋出仍未達最終階段的400B參數模型預覽版的表現，雖然僅能做為參考，不過已經顯露相當驚人的結果。

Chevelle.fu

Chevelle.fu

相關消息