維基媒體基金會與 Google 資料科學社群平台 Kaggle 合作 提供優化維基百科版本供 AI 訓練

2025.04.21 05:55PM

維基媒體基金會攜手 Kaggle 平台,提供 AI 訓練專用維基百科資料集,協助生成式模型學習更準確內容。

維基媒體基金會近期與Google旗下資料科學社群平台Kaggle合作針對人工智慧模型訓練需求推出最佳化設計的維基百科版本。

此維基百科版本與一般開放使用版本的差異,在於不包含書目資訊、參考文獻,或是Markdown編碼內容,藉此降低網站整體存取流量,避免影響原本維基百科存取效率,同時也能協助更多人工智慧模型透過開源資料內容進行訓練。

不過,目前此維基百科版本僅先提供英語與法語內容,預期後續也會增加更多語言選項。

維基媒體基金會表示,從目前人工智慧技術競爭比重增加之後,維基百科伺服器的流量足足增加50%,在避免影響原本維基百科內容存取情況下,維基媒體基金會希望提供更適合人工智慧模型訓練需求版本,藉此降低瀏覽流量所造成影響。

而Kaggle合作夥伴負責人Brenda Flynn則表示榮幸能與維基媒體基金會合作,藉此透過客製化的維基百科內容讓人工智慧模型訓練變得更有效率。

在此合作中,Kaggle將透過維基媒體基金會旗下營利平台Wikimedia Enterprise支付資料使用,而維基媒體基金會也表示希望未來更多人工智慧模型公司也能繼續遵守維基百科使用授權條款,而非一昧認定放上網路的內容都應該是免費提供使用。

在先前爭議中,不少人工智慧業者建立的人工智慧模型都是透過網路爬蟲方式撈取各類網站存放資料,藉此作為其人工智慧模型「思考」依據,不僅影響內容網站業者本身網路伺服器存取流量,甚至還影響之後使用者點選網頁瀏覽意願,而是直接透過人工智慧服務提問內容。

因此,Reddit執行長Steve Huffman近期接受訪談時,呼籲微軟、Anthropic或Perplexity.ai在內利用爬蟲機器人挖掘各網站資料的業者,應該為其行為支付費用。而網路基礎設施供應商Cloudflare近期宣布推出名為「AI Labyrinth」 (AI迷宮)的新功能,透過向網路爬蟲機器人提供虛假的AI生成內容,藉此打擊未經授權的內容抓取行為。