科學(xué)家研發(fā)人工智能聲吶眼鏡:可識別唇語(yǔ),準確率達 95%
IT之家 4 月 10 日消息,美國康奈爾大學(xué)的研究人員開(kāi)發(fā)了一種新技術(shù),可以通過(guò)聲納眼鏡進(jìn)行無(wú)聲溝通。這種眼鏡利用微型揚聲器和麥克風(fēng)來(lái)讀取佩戴者默念的單詞,從而可以在不需要物理輸入的情況下執行各種任務(wù)。
本文引用地址:http://dyxdggzs.com/article/202304/445444.htm這項技術(shù)由康奈爾大學(xué)的博士生張瑞東(音譯)領(lǐng)導開(kāi)發(fā),是在一個(gè)類(lèi)似的項目的基礎上進(jìn)行的改進(jìn),該項目使用了一個(gè)無(wú)線(xiàn)耳機,而之前的模型則依賴(lài)于攝像頭。
據IT之家了解,該聲納眼鏡使用一種名為 EchoSpeech 的無(wú)聲語(yǔ)音識別接口,利用聲納來(lái)感知嘴部運動(dòng),同時(shí)使用一個(gè)深度學(xué)習算法實(shí)時(shí)分析回波特征。這使得系統能夠以約 95% 的準確率識別佩戴者默念的單詞。
這項技術(shù)最令人興奮的前景之一是,對于有語(yǔ)言障礙的人來(lái)說(shuō),可以使用它來(lái)無(wú)聲地將對話(huà)輸入到語(yǔ)音合成器中,然后將單詞大聲說(shuō)出來(lái)。眼鏡也可以用來(lái)在安靜的圖書(shū)館中控制音樂(lè )播放,或者在嘈雜的音樂(lè )會(huì )上口述信息。
該技術(shù)既小巧又低功耗,也不會(huì )侵犯隱私,因為沒(méi)有數據離開(kāi)用戶(hù)的手機。這樣,就不會(huì )有隱私方面的擔憂(yōu)。眼鏡佩戴非常方便,比其他可用的無(wú)聲語(yǔ)音識別技術(shù)更實(shí)用、更可行。
研究人員表示,該系統只需要幾分鐘的訓練數據來(lái)學(xué)習用戶(hù)的語(yǔ)音模式,學(xué)習完成后,就可以朝用戶(hù)的臉上發(fā)送和接收聲波,感知嘴部運動(dòng),同時(shí)使用深度學(xué)習算法分析回波特征。該系統目前能夠識別 31 個(gè)孤立的命令和一串連續的數字,并且錯誤率低于 10%。
該系統目前的版本提供了大約 10 小時(shí)的電池續航,并且可以通過(guò)藍牙無(wú)線(xiàn)地與用戶(hù)的智能手機通信。智能手機負責處理和預測所有數據,并將結果傳輸到一些“動(dòng)作鍵”,讓它可以播放音樂(lè )、與智能設備交互或激活語(yǔ)音助手。
康奈爾大學(xué)智能計算機接口未來(lái)交互(SciFi)實(shí)驗室正在利用康奈爾大學(xué)的一個(gè)資助計劃來(lái)探索將這項技術(shù)商業(yè)化的可能性。
評論