APMIC攜手Twinkle AI推出可在手機端執行的台灣在地化繁中推論模型Formosa-1,同時推出推論模型測試工具Twinkle Eval

2025.04.08 11:39AM

隨著基於大型語言模型、多模態模型的各式生成式AI廣為流行,同時智慧手機、筆電也紛紛具備足以在裝置端執行小規模大型語言模型的能力,輔以DeepSeek的推波助瀾,現在越來越多生成式AI提供精巧且高效能的小參數版本,不過畢竟每個國家國情不同,更需要針對在地化語言、風俗的模型;其中於2017年於台灣創立、並為NVIDIA微調模型生態系夥伴的APMIC與繁中語言模型研究社群Twinkle AI宣布推出足以在智慧手機執行的3B參數推論模型Formosa-1,同時雙方也開發評測框架Twinkle Eval。

APMIC與Twinkle AI宣布將持續強化合作,共同推動繁體中文AI生態發展

Formosa-1

▲Formosa-1是基於Llama-3.2-3B-Instruct的在地化模型,利用100B高品質繁中Token作為訓練素材

Formosa-1是APMIC與Twinkle AI在國網中心研發團隊的技術支持與經驗分享下開發的在地化語言模型,基於Llama-3.2-3B-Instruct,也是首款以台灣在地語言、風俗為藍本、可在手機端執行的3B參數大型語言模型;Formosa-1利用基於NVIDIA NeMo平台的APMIC PrivAI產品蒸餾技術進行訓練,並以MIT授權方式完全開放模型權重;Formosa-1使用貼合台灣本地思維鏈(Taiwan Chain of Thought,TCoT)資料,並結合NVIDIA NeMo Data Curator加速資料管理服務,確保法律推論、邏輯思辯與數學推演的性能,訓練數據涵蓋包括新聞、法律、論文、社會討論等涵蓋100B規模的高品質繁中Token,確保符合台灣的使用習慣。

Twinkle Eval

當前傳統評測工具的逐題推論順序式流程進行龐大的題目數量或執行需要較長的推論時間與算立,導致評測效能與資源的使用效率受到限制;Twinkle Eval則是希冀改善評測流程的大型語言推論模型評測工具,與NVIDIA NeMo Evaluator評估模型深度整合,並支援大規模並行測試,確保模型於多領域的穩定與準確;同時透過隨機畫選項排序確保測試的公平性,避免受驗的模型預先記憶固定選項順序,同時具備重複測試機制,以多次獨立推論驗證模型的穩定性。

此外Twinkle Eval也內建台灣通識與專業能力混合題庫(TMMLU+)、台灣法律語料測試集(tw-legal-benchmark-v1)與MMLU基準測試集,確保測試範圍的廣度、準確度,並透過格式精控與錯誤修復機制,使Twinkle Eval有效確保受驗模型答案格式的統一性並降低測試錯誤率。

Formosa-1在利用Twinkle Eval進行MMLU語言理解的挑戰獲得52分,相較並未針對台灣繁中內容最佳化的Llama-3.2-3B-Instruct高出46分,顯見透過APMIC與Twinkle AI的技術蒸餾增強後,能夠提供符合當地需求的模型,提供產業更高效率的解決方案。

APMIC強調透過其企業私有化AI解決方案PrivAI能夠為企業量身打造專屬AI,並可支援自1B至500B規模的地端AI模型,滿足不同產業、不同規模的AI需求;利用預訓練、監督微調與模型蒸餾技術確保高準確與靈活部署能力。

資料來源

相關消息

科技應用
EVOX《對話式 AI 白皮書》:掌握 AI 商務溝通新趨勢
癮特務
3 天前
即拍即印普普風概念印章,製造屬於自己的圖像
annti wang
15 年前
開箱評測
被評價為「每步都非常舒服」的恢復型拖鞋 2種熱賣的日常款比較
Gizmodo Japan
21 個小時前
開箱評測
這麼薄卻可6裝置充電、總輸出達130W 這款Anker充電器規格簡直是拼命了
Gizmodo Japan
16 個小時前
汽車未來
全新改款 BMW iX 豪華純電旗艦休旅強勢上市!「THE NEW BMW iX」現場直擊,亮點分享一次了解!
癮特務
10 天前
《奇妙之旅》家族競技展開 熱鬪場內容介紹
皮耶哈
15 年前
產業消息
聯發科2025Q2手機營收佔52%預期旗艦天璣年內創造30億美金營收 首款2nm晶片維持9月設計定案
Chevelle.fu
22 個小時前
文化創意
國家鐵道博物館第一階段開放 免費展區即有豐富內容、柴電工廠吸收新知
Chevelle.fu
15 個小時前
開箱評測
可以與行李箱組合的三合一背包 我無法割捨Patagonia的理由
Gizmodo Japan
15 個小時前