隨著基於大型語言模型、多模態模型的各式生成式AI廣為流行,同時智慧手機、筆電也紛紛具備足以在裝置端執行小規模大型語言模型的能力,輔以DeepSeek的推波助瀾,現在越來越多生成式AI提供精巧且高效能的小參數版本,不過畢竟每個國家國情不同,更需要針對在地化語言、風俗的模型;其中於2017年於台灣創立、並為NVIDIA微調模型生態系夥伴的APMIC與繁中語言模型研究社群Twinkle AI宣布推出足以在智慧手機執行的3B參數推論模型Formosa-1,同時雙方也開發評測框架Twinkle Eval。
APMIC與Twinkle AI宣布將持續強化合作,共同推動繁體中文AI生態發展
Formosa-1
▲Formosa-1是基於Llama-3.2-3B-Instruct的在地化模型,利用100B高品質繁中Token作為訓練素材
Formosa-1是APMIC與Twinkle AI在國網中心研發團隊的技術支持與經驗分享下開發的在地化語言模型,基於Llama-3.2-3B-Instruct,也是首款以台灣在地語言、風俗為藍本、可在手機端執行的3B參數大型語言模型;Formosa-1利用基於NVIDIA NeMo平台的APMIC PrivAI產品蒸餾技術進行訓練,並以MIT授權方式完全開放模型權重;Formosa-1使用貼合台灣本地思維鏈(Taiwan Chain of Thought,TCoT)資料,並結合NVIDIA NeMo Data Curator加速資料管理服務,確保法律推論、邏輯思辯與數學推演的性能,訓練數據涵蓋包括新聞、法律、論文、社會討論等涵蓋100B規模的高品質繁中Token,確保符合台灣的使用習慣。
Twinkle Eval
當前傳統評測工具的逐題推論順序式流程進行龐大的題目數量或執行需要較長的推論時間與算立,導致評測效能與資源的使用效率受到限制;Twinkle Eval則是希冀改善評測流程的大型語言推論模型評測工具,與NVIDIA NeMo Evaluator評估模型深度整合,並支援大規模並行測試,確保模型於多領域的穩定與準確;同時透過隨機畫選項排序確保測試的公平性,避免受驗的模型預先記憶固定選項順序,同時具備重複測試機制,以多次獨立推論驗證模型的穩定性。
此外Twinkle Eval也內建台灣通識與專業能力混合題庫(TMMLU+)、台灣法律語料測試集(tw-legal-benchmark-v1)與MMLU基準測試集,確保測試範圍的廣度、準確度,並透過格式精控與錯誤修復機制,使Twinkle Eval有效確保受驗模型答案格式的統一性並降低測試錯誤率。
Formosa-1在利用Twinkle Eval進行MMLU語言理解的挑戰獲得52分,相較並未針對台灣繁中內容最佳化的Llama-3.2-3B-Instruct高出46分,顯見透過APMIC與Twinkle AI的技術蒸餾增強後,能夠提供符合當地需求的模型,提供產業更高效率的解決方案。
APMIC強調透過其企業私有化AI解決方案PrivAI能夠為企業量身打造專屬AI,並可支援自1B至500B規模的地端AI模型,滿足不同產業、不同規模的AI需求;利用預訓練、監督微調與模型蒸餾技術確保高準確與靈活部署能力。