Google Lyra 數位語音編解碼技術將導入人工智慧 低速網路環境也能傳遞清晰通話內容

2021.02.28 12:49PM
照片中提到了Mute、Keyрad、Speaker,包含了谷歌像素電話屏幕、像素2、像素點、Google Duo、打電話

目前Lyra技術的作法,會在每隔40毫秒時間擷取一次語音特徵,或是特定聲音內容,其餘部分則會在還原時藉由人工智慧技術方式補正,意味數位語音資料在實際通話過程的所需傳輸比例將可大幅減少,在3Kbps位元率運作下約可降低60%以上網路頻寬佔用比例,處理延遲時間僅為90毫秒,因此可在使用者能接受範圍內。

同時也能降低網路傳輸頻寬使用量

針對網路通話 (VoIP)服務使用需求,Google宣布打造高品質且具低位元特性的數位語音編解碼技術Lyra,標榜在低速連結的網路環境仍可維持清晰、流暢語音通話效果。

依照Google說明,Lyra編解碼技術採用機器學習模式,透過超過數千小時的語音內容學習訓練後,即可將高度壓縮後的數位語音封包完整還原,如此一來就能藉由低位元壓縮比例讓數位語音封包可在低速連結的網路環境快速傳遞,並且讓還原後的數位語音內容維持清晰,避免產生機器人聲情況。

雖然目前4G網路應用已經相當普及,同時不少國家地區也開始推行5G網路使用普及化,但仍有不少地區僅能以3G網路上網,甚至可能因為環境影響,造成網路傳輸相對緩慢情況,因此Google提出Lyra編解碼技術,將能改善目前越來越多人習慣使用的數位語音通話服務使用體驗,即便當下連網品質不佳,依然可以維持清晰通話。

目前Lyra技術的作法,會在每隔40毫秒時間擷取一次語音特徵,或是特定聲音內容,其餘部分則會在還原時藉由人工智慧技術方式補正,意味數位語音資料在實際通話過程的所需傳輸比例將可大幅減少,在3Kbps位元率運作下約可降低60%以上網路頻寬佔用比例。同時,處理延遲時間僅為90毫秒,因此可在使用者能接受範圍內。

而Google目前已經將Lyra技術應用在旗下數位語音通話服務Google Duo,並且與新版Android作業系統整合。

類似Lyra技術的作法,包含以WebRTC形式使用的數位語音通訊服務,多半採用開源設計的Opus編解碼技術,主要透過32Kbps位元率進行壓縮,但傳輸效率則會明顯受到網路頻寬影響,但若將位元率降低至6Kbps的話,則會產生明顯機器人聲現象。其他像是Speex、MELP或AMR在內編解碼技術,雖然可以實現與Lyra技術相近的位元率表現,但由於不像Lyra技術採用人工智慧技術加持,因此多半會有明顯雜訊、機器人聲。

0 則回應