
Google 利用深度學習,實現如人類般在嘈雜環境中將自己想聽的人的音軌獨立出來
人類是一種相當特殊的生物,獨特的感官能夠針對環境做出相當多精密的調適,包括視覺的白平衡,以及在嘈雜環境中的指向性收音能力;能夠在混亂嘈雜環境中聆聽到眼前人物的聲音的能力有個專有名詞,稱為雞尾酒會效應,這項能力對人類來說是稀鬆平常,不過對機器來說卻相當困難,然而 Google 的研究員藉由深度學習所開發的 Looking to Listen ,成功的將複雜環境中視線指定人物的說話聲隔離出來。 對機器來說,要能夠將同一個人的說話聲給獨立分離出來並不難,要把背景噪音消除也不是難事,不過一般的音軌分析技術僅能將人聲音軌分離,但這項技術則是透過分析影片中的人物與音軌,將影片中人物的聲音與人物進行對照,並
7 年前