APMIC 與 Twinkle AI 合作推出 Formosa 1,為台灣首個具 30 億參數的繁體中文推論模型,可於手機運行。
2017年在台灣創立、本身為NVIDIA微調模型生態夥伴的企業自主人工智慧解決方案業者APMIC (Accelerate Private Machine Intelligence Company)宣布與繁體中文語言模型研究社群Twinkle AI合作,推出台灣首個可用於手機端運行的30億組參數規格繁體中文推理模型「Formosa-1」。
此外,APMIC也與Twinkle AI合作開源高效評測框架「Twinkle Eval」,藉此用於評估人工智慧模型效能,進而推動台灣人工智慧技術發展與在地應用推廣。
「Formosa-1」是由APMIC與Twinkle AI社群研發,並且在國家高速網路與計算中心 (國網中心)研發團隊的技術支持與經驗分享下打造,成為台灣首款可在手機端運行的30億組參數規模大型語言模型。
此模型透過基於NVIDIA NeMo端對端平台製作的APMIC PrivAI產品模型,配合蒸餾技術進行訓練,並且以MIT授權方式完全開放模型權重,藉此推動台灣繁體中文開源人工智慧技術應用發展。
為了提升其模型推理能力,「Formosa-1」以貼合台灣在地思維鏈 (Taiwan Chain of Thought, TCoT)資料訓練,並且搭配NVIDIA NeMo Data Curator加速資料管理服務,確保在法律推理、邏輯思辨與數學推演方面能有更好表現。
而語言資料建構方面,「Formosa-1」的訓練數據涵蓋1000億規模,並且包含新聞、法律、論文、社會討論等多元文本的高品質繁體中文詞元 (Tokens),確保人工智慧對於繁體中文語境的精準理解與應用。
至於針對大型推理模型設計的開源評測框架「Twinkle Eval」,則是與NVIDIA NeMo Evaluator評估模型進行深度整合,支援大規模並行測試,確保模型在多領域的穩定性與準確性。
「Twinkle Eval」透過隨機化選項排序來確保測試公平性,避免模型記憶固定選項順序,並且引入重複測試機制,透過多次獨立推論驗證模型的穩定性。該工具內建台灣通識與專業能力混合題庫 (TMMLU+)、台灣法律語料測試集 (tw-legal-benchmark-v1)及MMLU基準測試集,確保測試範圍的廣度與準確性。
此外,透過格式精控與錯誤修復機制,更可讓「Twinkle Eval」有效確保答案格式的一致性,並且降低測試錯誤率。