首個手機可執行的繁體中文推理模型「Formosa-1」發表採 30 億組參數規格 #APMIC (238415)

APMIC 與 Twinkle AI 合作推出 Formosa 1，為台灣首個具 30 億參數的繁體中文推論模型，可於手機運行。

2017年在台灣創立、本身為NVIDIA微調模型生態夥伴的企業自主人工智慧解決方案業者APMIC (Accelerate Private Machine Intelligence Company)宣布與繁體中文語言模型研究社群Twinkle AI合作，推出台灣首個可用於手機端運行的30億組參數規格繁體中文推理模型「Formosa-1」。

此外，APMIC也與Twinkle AI合作開源高效評測框架「Twinkle Eval」，藉此用於評估人工智慧模型效能，進而推動台灣人工智慧技術發展與在地應用推廣。

「Formosa-1」是由APMIC與Twinkle AI社群研發，並且在國家高速網路與計算中心 (國網中心)研發團隊的技術支持與經驗分享下打造，成為台灣首款可在手機端運行的30億組參數規模大型語言模型。

此模型透過基於NVIDIA NeMo端對端平台製作的APMIC PrivAI產品模型，配合蒸餾技術進行訓練，並且以MIT授權方式完全開放模型權重，藉此推動台灣繁體中文開源人工智慧技術應用發展。

為了提升其模型推理能力，「Formosa-1」以貼合台灣在地思維鏈 (Taiwan Chain of Thought, TCoT)資料訓練，並且搭配NVIDIA NeMo Data Curator加速資料管理服務，確保在法律推理、邏輯思辨與數學推演方面能有更好表現。

而語言資料建構方面，「Formosa-1」的訓練數據涵蓋1000億規模，並且包含新聞、法律、論文、社會討論等多元文本的高品質繁體中文詞元 (Tokens)，確保人工智慧對於繁體中文語境的精準理解與應用。

至於針對大型推理模型設計的開源評測框架「Twinkle Eval」，則是與NVIDIA NeMo Evaluator評估模型進行深度整合，支援大規模並行測試，確保模型在多領域的穩定性與準確性。

「Twinkle Eval」透過隨機化選項排序來確保測試公平性，避免模型記憶固定選項順序，並且引入重複測試機制，透過多次獨立推論驗證模型的穩定性。該工具內建台灣通識與專業能力混合題庫 (TMMLU+)、台灣法律語料測試集 (tw-legal-benchmark-v1)及MMLU基準測試集，確保測試範圍的廣度與準確性。

此外，透過格式精控與錯誤修復機制，更可讓「Twinkle Eval」有效確保答案格式的一致性，並且降低測試錯誤率。