微軟發表 Phi-4 多模態小語言模型支援多模態處理同步推出較小的 Phi-4 mini (235701)

微軟發表 Phi-4 多模態小語言模型，支援多模態處理能力，並同步推出較小的 Phi-4 mini，提供不同應用場景選擇。

除了與OpenAI持續合作人工智慧模型，微軟也持續更新其Phi系列小型語言模型。而稍早宣布推出的Phi-4-multimodal，則是加入支援語音、圖像及文字的多模態處理能力，並且透過Azure AI Foundry、Hugging Face及Nvidia API Catalog等託管平台提供使用。

相比先前推出的Phi-4，此次推出版本主要強化多模態處理能力，並且強化語音識別、視覺分析與文字推論表現，藉此提升裝置端的多工人工智慧應用性能。

由於對應多模態處理方式，因此不像過往模型必須先將語音內容轉換為文字，並且必須透過獨立視覺模型處理影像分析工作，會讓整體執行效率產生明顯延遲，同時也可能造成裝置更大記憶體等資源損耗。

而此次提出的Phi-4-multimodal，則可透過統一神經網路架構直接處理語音、圖像與文字內容，藉此提升資料處理效率。同時，Phi-4-multimodal本身具備56億組參數、支援12.8萬組詞元前後內容處理能力，另外也支援偏好最佳化、回饋強化學習，並且標榜使用安全性。

Phi-4-multimodal支援超過20種語言，其中包含英文、中文、日文、韓文、德文、法文等主要語言，語音則支援英文、中文、西班牙文、日文等主要語言，至於圖像處理部分則僅暫時支援英文理解。

除了Phi-4-multimodal，微軟也同步推出更小規模的Phi-4-mini，參數量僅有38億組，並且聚焦在文字內容處理，並且支援程式編碼產生，以及數學推理、長文內容處理等，可同時處理12.8萬組詞元內容，標榜在同規模的小型語言模型具備更高推理能力與指令遵循表現。

資料來源

https://mashdigi.com/microsoft-launches-phi-4-multimodal-a-s...

Mash Yang

資料來源

Mash Yang

相關消息