Facebook 發表機器學習語言翻譯技術 100 種語言直接互譯 保留更完整含意

2020.10.21 06:05PM
0
照片中提到了oh tt eret de、letve. e p、tvised,包含了世界地圖png、地球、世界、世界地圖、地圖

Facebook作法是仰賴本身每天串接超過20億人互動,同時累積大量發文內容,其中至少涵蓋160種語言,同時超過三分之二的內容是以英語以外語言撰寫,使得Facebook能運用這些內容進行深度機器學習,讓電腦系統能自行學習不同語言內容互譯,並且得到能保留原文含意的翻譯結果。

標榜無需透過中間介質語言轉換

Facebook宣布推出以機器學習為基礎的語言翻譯技術「M2M-100」,標榜能直接翻譯超過100種語言,同時並非像傳統透過中間介質語言 (例如英文)方式進行翻譯,而是讓兩種語言能直接互譯,藉此保留更完整的語言原意。

「M2M-100」總計對應100種語言,並且透過多達75億組字句,以及超過150億種參數訓練,進而可實現對應兩種語言直接互譯,而非透過中間介質語言轉換。

依照Facebook研究助理Angela Fan解釋,傳統翻譯方式通常是透過中間介質語言進行翻譯,透過同義比對方式翻譯不同語言構成語句,而這樣的方式最常見的作法是以英語做為中間介質語言,因為英語對應內容較為普及,因此相對容易用來比對不同語言字句所對應含意。

不過,由於透過中間介質語言對應資料比對方式仍會有誤差,加上進行二次翻譯 (例如中文轉成英文,在從英文轉成法文)過程也會讓原本字句含意走樣,更不用說部分語言像中文在同字情況,可能就會代表不同含意,因此在這樣的翻譯方式難免會讓原本陳述內容無法百分之百重現。

而在Facebook的作法,則是仰賴本身每天串接超過20億人互動,同時累積大量發文內容,其中至少涵蓋160種語言,同時超過三分之二的內容是以英語以外語言撰寫,使得Facebook能運用這些內容進行深度機器學習,讓電腦系統能自行學習不同語言內容互譯,並且得到能保留原文含意的翻譯結果。

藉由BLEU雙語互換評鑑測試結果,Facebook提出的語言翻譯方式,將比傳統以中間介質語言進行翻譯的方式更為精準。

目前Facebook已經在動態時報頁面提供外語翻譯功能,平均每天翻譯量超過200億次,同時也能由各地區的Facebook使用者手動回報翻譯結果,讓Facebook能針對翻譯結果進行調整,藉此讓翻譯功能更為準確。

類似的作法,Google過去也提出以人工智慧協助提高翻譯精準度的方法,不過翻譯過程則是透過可讓系統理解的中間介質語言,進而轉譯成目標翻譯語言,並且配合機器學習分析理解翻譯語句關連,進而了解整段語句所要表達含意,讓過往逐字翻譯產生的奇怪語句情況有所改善,達成更貼近自然語句的直譯效果。

0 則回應