亞馬遜推出 Nova Sonic 模型深層理解人類對話能捕捉語氣與音調 #amazon (238493)

Amazon 發表新款 Nova Sonic 模型，能深入理解人類對話，捕捉語調與語氣，提升人機溝通體驗，預計廣泛應用於客服領域。

亞馬遜宣布推出全新基礎模型Amazon Nova Sonic，將語音理解與語音生成統一於單一的模型中，使人工智慧應用服務的語音對話表現更貼近真人，並且透過Amazon Bedrock以API形式呼叫使用，可用於服務通話自動化服務，或是涵蓋旅遊、教育、醫療、娛樂等領域的跨產業人工智慧代理服務。

傳統語音應用開發需要同時協調多個模型，例如將語音轉為文字的語音識別模型，搭配理解且生成回應的大型語言模型，以及再將文字轉為音訊呈現的文本轉語音模型，不僅增加開發的複雜性，同時也難以保留自然對話中至關重要的聲音情境和細微差別，如語氣、語調韻律和說話風格等等。

而Nova Sonic則是捨棄過往使用多個不同模型的設計，將理解與生成功能統一於單一模型中，讓模型能根據語氣、風格等聲音情境，以及口語輸入調整生成的語音回應表現更貼近自然對話語調。

Nova Sonic甚至能理解人類對話的細微變化，包括說話者的自然停頓與猶豫，能在恰當時機做出回應，並能從容應對對話中的插話情況。此模型同時會將語音內容生成文字檔，讓開發者能夠利用這些文本來調用特定工具與API，進而建構更豐富的語音人工智慧代理服務。

透過以下連結，可以感受透過Nova Sonic生成自然語調表現：

資料來源

Mash Yang