網路資訊眾多,比起以往透過口耳相傳方式更容易傳遞各類資訊,其中也包括許多惡意與造假的內容,有些是不合時宜的舊聞被誤認為最新資訊,有些則是透過各式手段刻意傳播試圖操弄的假消息; Google 今日在官方部落格公布一則技術說明文章,介紹 Google 如何透過 AI 技術提升 Google Search 的安全性與正確性。
Google Search 是現代人尋找資訊的手段,基於社會責任也會避免與遏止使用者濫用,例如搜尋關於自殺或人口販賣,首先會出現全年無休的諮詢或是救助單位而非這些行為的教學,但一旦人們陷入恐慌情況,則會不擇手段的試圖繞過 Google Search 的基本過濾,在全球提供服務的 Google Search 若無法理解各種語言,就有可能會出現這些使用者希冀的惡意結果。
為了避免出現這樣的情況, Google Search 需要能去理解不同的語言,其中最關鍵的就是新一代 AI 模型 MUM , MUM 是一項遷移式學習技術,能透過完成基礎模型後去學習不同語言所要傳達的真正語意與企圖,當前已經使用 75 種語言進行模型訓練, Google 也將在接下來陸續幾周開始導入 MUM 模型進一步提供更安全的搜尋結果。
此外,若要確保使用者安全的使用搜尋功能,就要設法避免使用者找到駭人的搜尋結果,但這對於搜尋引擎是相當困難的,因為許多惡意的內容操作會透過在網頁加入各式無害的標記包裝煽情露骨或具有暗示性的內容,即便使用者並非要搜尋這類結果,也會被誤導到提供經過包裝的錯誤資訊結果。
▲ Google 盡可能減少濫用標籤與關鍵字的煽情露骨內容出現在搜尋結果上
Google Search 為了降低這樣的情況發生提供多種方式,其一是透過安全搜尋功能,安全搜尋功能會自動為未滿 18 歲的用戶預設開啟,縱使未啟用安全搜尋,只要搜尋的目標非色情內容,仍會減少濫用關鍵字的色情內容的出線機率。
當然光靠安全搜尋還不夠,故 Google 也搭配 BERT 的進階 AI 技術, BERT 是一項自然語意理解 AI 技術,藉此判斷使用者是否真的要搜尋煽情的內容,使使用者盡可能找到他們想搜尋的結果。雖然無法完全遏止這類濫用情況,不過 Googl 去年已經將這些非預期的誤導結果降低 30% ,尤其是搜尋種族、性傾向與性別相關內容時大幅減少出現煽情、露骨的結果。