Amazon 發表新款 Nova Sonic 模型,能深入理解人類對話,捕捉語調與語氣,提升人機溝通體驗,預計廣泛應用於客服領域。
亞馬遜宣布推出全新基礎模型Amazon Nova Sonic,將語音理解與語音生成統一於單一的模型中,使人工智慧應用服務的語音對話表現更貼近真人,並且透過Amazon Bedrock以API形式呼叫使用,可用於服務通話自動化服務,或是涵蓋旅遊、教育、醫療、娛樂等領域的跨產業人工智慧代理服務。
傳統語音應用開發需要同時協調多個模型,例如將語音轉為文字的語音識別模型,搭配理解且生成回應的大型語言模型,以及再將文字轉為音訊呈現的文本轉語音模型,不僅增加開發的複雜性,同時也難以保留自然對話中至關重要的聲音情境和細微差別,如語氣、語調韻律和說話風格等等。
而Nova Sonic則是捨棄過往使用多個不同模型的設計,將理解與生成功能統一於單一模型中,讓模型能根據語氣、風格等聲音情境,以及口語輸入調整生成的語音回應表現更貼近自然對話語調。
Nova Sonic甚至能理解人類對話的細微變化,包括說話者的自然停頓與猶豫,能在恰當時機做出回應,並能從容應對對話中的插話情況。此模型同時會將語音內容生成文字檔,讓開發者能夠利用這些文本來調用特定工具與API,進而建構更豐富的語音人工智慧代理服務。
透過以下連結,可以感受透過Nova Sonic生成自然語調表現: