AI驅動(dòng)的耳機通過(guò)語(yǔ)音克隆和3D空間音頻提供群組翻譯
最近出現了各種技術(shù),有望實(shí)現流暢的翻譯,但這些都沒(méi)有解決陳的公共空間問(wèn)題。例如,Meta 的新眼鏡只能與隔離揚聲器一起使用;他們會(huì )在說(shuō)話(huà)人完成后播放自動(dòng)語(yǔ)音翻譯。
現在,Chen 和威斯康星大學(xué)的一組研究人員設計了一種耳機系統,可以同時(shí)翻譯多個(gè)揚聲器,同時(shí)保留人們聲音的方向和質(zhì)量。該團隊構建了這個(gè)名為 Spatial Speech Translation 的系統,并使用裝有麥克風(fēng)的現成降噪耳機。該團隊的算法將空間中的不同說(shuō)話(huà)者分開(kāi),并在他們移動(dòng)時(shí)跟隨他們,翻譯他們的語(yǔ)音,并以 2-4 秒的延遲播放。
華盛頓大學(xué)的研究人員設計了一種耳機系統,可以同時(shí)翻譯幾個(gè)人說(shuō)話(huà),跟隨他們的移動(dòng)并保留他們聲音的方向和質(zhì)量。該團隊構建了這個(gè)名為 Spatial Speech Translation 的系統,并使用配有麥克風(fēng)的現成降噪耳機。圖片來(lái)源:Chen et al./CHI '25
該團隊于 4 月 30 日在日本橫濱舉行的 ACM CHI 計算系統中的人為因素會(huì )議上展示了他們的研究。概念驗證設備的代碼可供其他人構建?!捌渌g技術(shù)是建立在只有一個(gè)人在說(shuō)話(huà)的假設之上的,”資深作者、華盛頓大學(xué)計算機科學(xué)與工程學(xué)院的教授Shyam Gollakota說(shuō)?!暗诂F實(shí)世界中,你不能只有一個(gè)機器人聲音為一個(gè)房間里的多人說(shuō)話(huà)。我們第一次保留了每個(gè)人的聲音及其來(lái)源。

評論