史丹佛大學評比大型自然語言模型透明度,Meta Llama 2 奪冠,亞馬遜 Titan Text 墊底

2023.10.20 06:26PM

史丹佛評估指標包括模型的運作模式、架構、監控機制等,認為目前的大型自然語言模型都還不夠透明,不建議企業或政府機構使用這些模型來提供服務。

史丹佛大學人本人工智慧學院 (Stanford University Human-Centered Artificial Intelligence,Stanford HAI)稍早公布10款被大量採用的大型自然語言模型透明度指標,其中獲得最高分的是Meta旗下Llama 2,而排名最低的則是亞馬遜旗下Titan Text,至於OpenAI的GPT-4則在排名第四,Google的PaLM 2則位居第五,在Stability.ai排名之後。

不過,報告中也指出即便Llama 2在10款大型自然語言模型中的透明度排名第一,但實際上的透明度僅有54%,而Google的PaLM 2也僅有40%透明度,作為商用的亞馬遜Titan Text透明度更僅有12%。

此指標報告的透明度計算方式,包含業者是否對外公布模型運作模式、規模及架構等,另外也包是否提供相關監控機制及補救調整方式,而透明度高低更意味使用者能信賴大型自然語言模型的程度。而從負責使指標報告製作的史丹佛大學人本人工智慧學院基礎模型研究中心看法認為,當前列入計算的大型自然語言模型實際上都無法完全信賴,並不建議企業或政府機構運用此類模型打造服務。

史丹佛大學人本人工智慧學院總計制定100項用於評估大型自然語言模型透明度的指標,其中約三分之一用於評估模型如何被建立、訓練使用資料、建立模型時花費人力等,而其他三分之一則包含模型實際運作表現、可信度、風險程度,以及改善方式,剩餘三分之一則包含提供模型的業者採取政策、業者是否針對受影響情況提供協助等。

-
-

相關消息

新品資訊
全新高效能筆電與掌機亮相!MSI 打造《龍魂城解鎖行動》實境互動體驗、週末限時登場等你來挑戰!
癮特務
3 天前
產業消息
NVIDIA於開發者版驅動程式為GeForce RTX 40導入軟體式幀生成Smooth Motion,任何遊戲皆可幀率翻被
Chevelle.fu
17 個小時前
新奇搞笑
美國研發將核廢料轉化成再生能源的新技術
Twelve
2 天前
遊戲天堂
EA 終止《極速快感》系列遊戲開發計畫 經典賽車 IP 將停駛?
Mash Yang
17 個小時前
蘋果新聞
傳聞蘋果董事會已有一批Tim Cook擁護者努力阻止他被逼宮,且Tim Cook有望成為下一任董事長
Chevelle.fu
15 個小時前
應用教學
2025台中城鎮韌性防空演習懶人包:日期時間、人車交通管制措施、避難規定、違規罰款多少?
Zero圈圈
12 個小時前
Xbox Game「Lips」Model
stoneip
16 年前
應用教學
2025城鎮韌性防空演習台北、新北、新竹實施日期時間、交通管制:台北捷運規定、重點驗證區
Zero圈圈
12 個小時前
產業消息
十銓推出INDUSTRIAL P250Q一鍵銷毀SSD,按下按鈕直接抹除資料
Chevelle.fu
16 個小時前