維基媒體基金會與 Google 資料科學社群平台 Kaggle 合作 提供優化維基百科版本供 AI 訓練

2025.04.21 05:55PM

維基媒體基金會攜手 Kaggle 平台,提供 AI 訓練專用維基百科資料集,協助生成式模型學習更準確內容。

維基媒體基金會近期與Google旗下資料科學社群平台Kaggle合作針對人工智慧模型訓練需求推出最佳化設計的維基百科版本。

此維基百科版本與一般開放使用版本的差異,在於不包含書目資訊、參考文獻,或是Markdown編碼內容,藉此降低網站整體存取流量,避免影響原本維基百科存取效率,同時也能協助更多人工智慧模型透過開源資料內容進行訓練。

不過,目前此維基百科版本僅先提供英語與法語內容,預期後續也會增加更多語言選項。

維基媒體基金會表示,從目前人工智慧技術競爭比重增加之後,維基百科伺服器的流量足足增加50%,在避免影響原本維基百科內容存取情況下,維基媒體基金會希望提供更適合人工智慧模型訓練需求版本,藉此降低瀏覽流量所造成影響。

而Kaggle合作夥伴負責人Brenda Flynn則表示榮幸能與維基媒體基金會合作,藉此透過客製化的維基百科內容讓人工智慧模型訓練變得更有效率。

在此合作中,Kaggle將透過維基媒體基金會旗下營利平台Wikimedia Enterprise支付資料使用,而維基媒體基金會也表示希望未來更多人工智慧模型公司也能繼續遵守維基百科使用授權條款,而非一昧認定放上網路的內容都應該是免費提供使用。

在先前爭議中,不少人工智慧業者建立的人工智慧模型都是透過網路爬蟲方式撈取各類網站存放資料,藉此作為其人工智慧模型「思考」依據,不僅影響內容網站業者本身網路伺服器存取流量,甚至還影響之後使用者點選網頁瀏覽意願,而是直接透過人工智慧服務提問內容。

因此,Reddit執行長Steve Huffman近期接受訪談時,呼籲微軟、Anthropic或Perplexity.ai在內利用爬蟲機器人挖掘各網站資料的業者,應該為其行為支付費用。而網路基礎設施供應商Cloudflare近期宣布推出名為「AI Labyrinth」 (AI迷宮)的新功能,透過向網路爬蟲機器人提供虛假的AI生成內容,藉此打擊未經授權的內容抓取行為。

相關消息

科技應用
EVOX《對話式 AI 白皮書》:掌握 AI 商務溝通新趨勢
癮特務
3 天前
即拍即印普普風概念印章,製造屬於自己的圖像
annti wang
15 年前
開箱評測
被評價為「每步都非常舒服」的恢復型拖鞋 2種熱賣的日常款比較
Gizmodo Japan
13 個小時前
《奇妙之旅》家族競技展開 熱鬪場內容介紹
皮耶哈
15 年前
汽車未來
全新改款 BMW iX 豪華純電旗艦休旅強勢上市!「THE NEW BMW iX」現場直擊,亮點分享一次了解!
癮特務
9 天前
產業消息
聯發科2025Q2手機營收佔52%預期旗艦天璣年內創造30億美金營收 首款2nm晶片維持9月設計定案
Chevelle.fu
14 個小時前
開箱評測
這麼薄卻可6裝置充電、總輸出達130W 這款Anker充電器規格簡直是拼命了
Gizmodo Japan
8 個小時前
文化創意
國家鐵道博物館第一階段開放 免費展區即有豐富內容、柴電工廠吸收新知
Chevelle.fu
7 個小時前
產業消息
Figma 重啟 IPO 計畫 估值將達 193 億美金
Mash Yang
12 個小時前