Google 機器學習應用分享：基於機器學習並持續進化的翻譯 (123772)

近期因為 Alpha Go 持續在圍棋領域擊敗各界好手，人工智慧議題又開始獲得關注，當然人工智慧並非新技術，但在機器學習技術於硬體、演算法雙方面逐趨成熟後，人工智慧發展獲得飛躍性成長， Google 為了讓媒體對機器學習的應用有更多了解，也預計規畫一系列定期講座，每一季以一個相關議題進行探討，而今天則首度以 Google 翻譯為議題，探討導入機器學習後帶來的效益。

關於機器學習/深度學習可見先前報導： GTC 2015 ：結合平行運算、模仿人類感知的深度學習，正醞釀一波人工智慧革命

Google 台灣總經理簡立峰表示，人工智慧並非新議題，早就開始被應用在各項領域，早期像是垃圾信辨識就已經導入人工智慧，然而過去在演算法與硬體發展限制下，人工智慧發展一度碰壁，但隨著 Google 開始導入機器學習後，停滯的齒輪又開始轉動， Google 也將 TensorFlow 演算法開放，促進人工智慧與機器學習的發展。

簡立峰表示，目前人工智慧雖獲得大幅成長，不過仍僅限於特定領域，人工智慧能達到的領域在於能夠被預測並且可學習的領域，例如垃圾郵件、圍棋等，但像是難以被預測、難以判斷知識領域，例如哲學、思考邏輯、感官等，就無法以人工智慧實現。

目前人工智慧以人類能力區分可簡單分為三個層級，包括透過各種感測器達到超人類的超人級，與人類能力近似如影像辨識的類人級，以及低於人類能例如翻譯的次人級。

在簡立峰作為簡短的人工智慧發展論述後，接著由 Google 在美國總部份負責 Google 翻譯的產品經理 Julie 針對目前 Google 翻譯如何應用人工智慧作介紹； Julie 表示，翻譯服務是相當重要的功能，因為目前高達五成的網頁內容是以英文撰寫，但使用英文作為主要語言的使用者卻不到兩成，是故 Google 在推出翻譯服務後也獲得好評。

不過不知道在初期就開始使用 Google 翻譯的使用者有沒有發現， Google 翻譯在 2015 年下半年後，精確度開始變高，更像是自然翻譯的結果，這是因為在 2015 年 9 月開始導入機器學習( NMT )取代原本的片語式架構，且目前導入的成果超過預期，在 13.5 個月內達到當初預期 3 年才能提供的服務水準，截自今年 4 月已經能提供 26 種翻譯語言。

目前 Google 翻譯透過機器學習，約可在 2 到 3 周訓練一個模型基礎，學習內容超過一億個案例，現階段已經提供 103 個平方組的模型；同時 Google 翻譯也為了加速模型產生，透過多語言模型交叉訓練學習，把不同語言、相同語意歸納，使翻譯訓練能在兩周內由 10 秒縮減到 0.2 秒。在透過機器學習後，最關鍵的是能夠判斷前後文的關係選擇正確詞彙，也因此能夠提供更接近人工翻譯的水準。

另一個結合多重機器學習應用的翻譯，就是 Google 的即時鏡頭翻譯，即時鏡頭翻譯透過影像辨識、分析文字、翻譯後再於螢幕上顯像；為了提升文字圖像辨識能力， Google 刻意提供與真實情況相同的模糊印刷文字、污漬、塵點等文字作為學習基礎，也因此能達到高精確的即時鏡頭翻譯品質。

Google 目前也打算在幾項 Google 翻譯領域持續強化，包括數字與日期，如人名等特殊名詞以及簡短與罕見查詢字串等，尤其像是人名與特殊名詞也是目前 Google 翻譯常遇到但卻無法正確翻譯的情境；至於口語化語句目前難以翻譯的主因，仍是因為無法提供充裕的學習樣本，畢竟口語化語句平常較少用於常規網頁內容撰寫，當遇到此類特殊用法時，目前還是無法提供正確的翻譯結果。

其次目前簡體、繁體中文(包括台灣與香港用語)仍歸納在相同的模型中，最主要的考量還是因為資料量，畢竟越充裕的資料量也能夠獲得越正確的結果，雖然各地的名詞還是有所不同，不過藉由機器學習的前後語意判斷，在顯示簡體或是繁體語言時，也能更正確的顯示簡體或是繁體的翻譯結果。

深入閱讀

GTC 2015 ：結合平行運算、模仿人類感知的深度學習，正醞釀一波人工智慧革命

深入閱讀

Chevelle.fu

相關消息