<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 康奈爾中國博士生打造AI聲吶眼鏡,能連續識別31條無(wú)聲語(yǔ)音指令,主要成本不超過(guò)400元

康奈爾中國博士生打造AI聲吶眼鏡,能連續識別31條無(wú)聲語(yǔ)音指令,主要成本不超過(guò)400元

發(fā)布人:傳感器技術(shù) 時(shí)間:2023-06-01 來(lái)源:工程師 發(fā)布文章
“據我們所知,EchoSpeech 是第一個(gè)使用眼鏡框來(lái)進(jìn)行無(wú)聲語(yǔ)音識別的工作。論文發(fā)表之后我們收到了很多郵件。在發(fā)信人中,有即將被移除聲帶的癌癥患者、有語(yǔ)音障礙的孩子、也有來(lái)自醫生的。這些反饋激勵著(zhù)我們更加努力地將本次成果帶出實(shí)驗室,做出真正能夠改變人類(lèi)生活的產(chǎn)品?!鼻迦A大學(xué)校友、目前正在美國康奈爾大學(xué)讀博的張瑞東表示。

圖片圖 | 圖中張瑞東佩戴的眼鏡就是 EchoSpeech 設備(來(lái)源:Photo Courtesy of Dave Burbank)EchoSpeech 是一款新型可穿戴無(wú)聲語(yǔ)音識別系統 ,它可以連續識別 31 條無(wú)聲語(yǔ)音指令,準確率達到 95%,最高電池續航時(shí)間約 10 小時(shí)。其中,傳感器成本不超過(guò) 100 元,單片機處理器成本 300 元左右。,時(shí)長(cháng)00:29(來(lái)源:ACM)無(wú)聲語(yǔ)音指的是只動(dòng)嘴、而聲帶不發(fā)聲的說(shuō)話(huà)方式,有些類(lèi)似于耳語(yǔ)(不嚴格區分的話(huà),耳語(yǔ)也可以算作無(wú)聲語(yǔ)音)。不過(guò),耳語(yǔ)本身必須發(fā)出一些聲音,而無(wú)聲語(yǔ)音則無(wú)需發(fā)出任何聲音。正在閱讀這篇文章的你可以嘗試一下耳語(yǔ),但是不要送出氣流,這樣幾乎不會(huì )發(fā)出任何聲音,而嘴唇和舌頭依然會(huì )動(dòng)。對于公眾來(lái)說(shuō),無(wú)聲語(yǔ)音可能仍然是一個(gè)新鮮事物。但是,大家在日常中或多或少都會(huì )接觸到。比如,開(kāi)會(huì )時(shí)和別人交流時(shí)的耳語(yǔ)。相比有聲語(yǔ)音來(lái)說(shuō),無(wú)聲語(yǔ)音最大的優(yōu)勢就是“無(wú)聲”。在一些安靜的場(chǎng)合,比如圖書(shū)館、會(huì )議中等,出聲地說(shuō)話(huà)是不合適的;另外,在特別嘈雜的環(huán)境中,語(yǔ)音交流也會(huì )容易受到噪聲的影響。在這種情況之下,都可以使用耳語(yǔ)。而對于聲帶損傷者或殘疾人士來(lái)說(shuō),無(wú)聲語(yǔ)音可能是最接近語(yǔ)音交流的唯一選擇。在這個(gè)意義上,關(guān)于無(wú)聲語(yǔ)音的相關(guān)應用具備很大的潛力。,時(shí)長(cháng)09:30(來(lái)源:ACM)對于無(wú)聲語(yǔ)音識別這項技術(shù),已經(jīng)有很多課題組在研究。最成熟、最流行的是依靠計算機視覺(jué)的方案:即使用相機直接捕捉面部運動(dòng)尤其是嘴唇的運動(dòng)。這種方法的缺點(diǎn)十分明顯:它必須在用戶(hù)面前放置相機,而這就涉及到普適性、功耗、隱私等問(wèn)題。也正因此,目前面向可穿戴領(lǐng)域的解決方案多數還不成熟,在穿戴舒適度、功耗、系統等方面依舊欠佳。例如,在多支團隊的研究成果中,都需要在口腔內放置傳感器來(lái)追蹤舌頭運動(dòng)。絕大多數方案只能識別說(shuō)得比較清晰、語(yǔ)速較慢的離散指令,例如能識別單獨說(shuō)出來(lái)的、中間有暫停的 1-2-3,但是無(wú)法識別連續說(shuō)出來(lái)的 123。而張瑞東所在團隊研發(fā)的 EchoSpeech,在穿戴舒適度和連續識別上有著(zhù)明顯優(yōu)勢。在 EchoSpeech 的設計中,傳感器即小揚聲器的麥克風(fēng),被安裝在眼鏡框的下邊緣。這時(shí),通過(guò)采用聲波感知技術(shù),就能探測面部運動(dòng)尤其嘴唇的運動(dòng),并以此來(lái)識別無(wú)聲語(yǔ)音。與同類(lèi)成果相比,EchoSpeech 具有體積小、佩戴舒適、功耗低、隱私保護好等優(yōu)勢。同時(shí),在識別連續詞組/句子的能力上,EchoSpeech 也有著(zhù)很大提升。圖片(來(lái)源:ACM)長(cháng)期來(lái)看,無(wú)聲語(yǔ)音識別技術(shù)很有潛力作為普通語(yǔ)音識別的替代和補充。有研究顯示,隱私和社交尷尬是用戶(hù)不愿使用語(yǔ)音識別的重要因素 [1,2]。而無(wú)聲語(yǔ)音恰好解決這兩個(gè)問(wèn)題,原因在于它可以擴展語(yǔ)音輸入整體的應用。另一方面,無(wú)聲語(yǔ)音還能把語(yǔ)音識別技術(shù)擴展到更多場(chǎng)景中,例如有望讓用戶(hù)在工作環(huán)境下使用無(wú)聲語(yǔ)音控制設備,同時(shí)也能讓用戶(hù)使用無(wú)聲語(yǔ)音來(lái)與 AI 使用自然語(yǔ)言交流,這樣一來(lái)既能大大提高工作效率,也不會(huì )打擾到周?chē)恕?/span>不過(guò)短期來(lái)看,由于詞匯量、識別準確率等方面的限制,要想實(shí)現大規模的應用可能還不成熟。目前,最有希望將 EchoSpeech 用于控制音樂(lè )播放和社交軟件等。,時(shí)長(cháng)03:53(來(lái)源:ACM)張瑞東表示:“一直以來(lái),我們實(shí)驗室都專(zhuān)注于可穿戴交互設備的研究。我的上一個(gè)項目 SpeeChin,也是一個(gè)無(wú)聲語(yǔ)音識別的工作。不同之處在于,SpeeChin 采用掛在項鏈上的紅外相機來(lái)捕捉下巴運動(dòng),進(jìn)而去推斷無(wú)聲語(yǔ)音?!?/span>相比之前的工作,SpeeChin 在識別準確率和設備舒適性上有著(zhù)極大提高。但是,作為一種采用相機的方案,其依然存在功耗高、侵犯隱私等問(wèn)題。正因為這些原因,該團隊一直在開(kāi)發(fā)應用范圍更廣泛的感知技術(shù),比如聲波感知技術(shù)等。張瑞東表示:“為此我參與了一個(gè)名為 EarIO 的項目,期間我們利用耳機上的揚聲器和麥克風(fēng),借助聲波感知技術(shù)通過(guò)捕捉耳后皮膚的微小震動(dòng)來(lái)重建面部表情。在 EarIO 獲得成功時(shí),我們立刻意識到了這項技術(shù)在其他方面的巨大潛力。于是開(kāi)啟了本次 EchoSpeech 的項目?!?/span>立項之后,有兩個(gè)難題擺在張瑞東面前:一是尋找最合適的設備形態(tài),包括設備本身的形態(tài),以及傳感器的位置、角度和數量;二是提高系統性能,尤其是識別連續短語(yǔ)和句子的能力。在尋找設備形態(tài)上,他們嘗試了很多方案,比如耳機+外延的結構、以及環(huán)繞頭部固定器+外延結構等。但是,這類(lèi)結構的主要問(wèn)題在于,在多次佩戴之后穩定性欠佳。他們也嘗試過(guò)入耳式耳機、頭戴式耳機等結構,不過(guò)由于距離主要“發(fā)音器”(即說(shuō)話(huà)時(shí)活動(dòng)的部分例如嘴唇、舌頭)比較遠,故在同等條件之下識別準確率不甚理想,同時(shí)所需要的數據也更多。后來(lái),張瑞東的導師想到了眼鏡?!皩煆娏医ㄗh我試一試眼鏡框,我之前對眼鏡框不是很有信心,因為它離主要的‘發(fā)聲器’太遠了。而且由于位置和角度的原因,并沒(méi)有合適的直線(xiàn)傳播路徑。但是,在嘗試中我意識到對于信號來(lái)說(shuō),其實(shí)并不需要直線(xiàn)傳播?!睆埲饢|說(shuō)。眼鏡的好處之一在于穩定性高,一般情況下眼鏡會(huì )被貼合地佩戴在頭上,在多次佩戴之后依然具備較好的穩定性。并且,眼鏡和主要“發(fā)器”之間的相對距離比較穩定。直到這時(shí),裝置的最終形態(tài)終于被確定下來(lái):即在眼鏡框下緣布置傳感器,其中一側放置揚聲器,另一側放置麥克風(fēng)。在提高系統性能上,他們并未使用先切割出來(lái)說(shuō)話(huà)部分、再進(jìn)行識別的方法,而是使用端到端的方法,一次性地完成切割任務(wù)和識別任務(wù)。這樣一來(lái),當佩戴者不說(shuō)話(huà)的時(shí)候,系統就會(huì )輸出空標簽。至此,前面提到的兩個(gè)難題均被攻克,關(guān)于 EchoSpeech 的課題也正式宣告結束。日前,相關(guān)論文以《EchoSpeech:由聲學(xué)傳感驅動(dòng)的最小干擾眼鏡上的連續無(wú)聲語(yǔ)音識別》(EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing)為題發(fā)在 2023 ACM 人機交互國際會(huì )議上,該會(huì )議也被認為是人機交互領(lǐng)域最負盛名的會(huì )議。張瑞東是論文第一作者,康奈爾大學(xué)教授張鋮擔任通訊作者 [3]。圖片圖 | 相關(guān)論文(來(lái)源:ACM)基于本次成果,張瑞東也將開(kāi)展語(yǔ)音合成、以及擴展詞匯量。假如可以實(shí)現語(yǔ)音合成,那么就能用于發(fā)音障礙人群身上,從而給他們提供一個(gè)真正的語(yǔ)音交互接口。而之所以打算拓展詞匯量,是因為如果想把無(wú)聲語(yǔ)音識別真正做成一個(gè)有用的產(chǎn)品,就必須能夠識別更多的單詞。長(cháng)期來(lái)看,該團隊希望無(wú)聲語(yǔ)音識別技術(shù)的表現,能夠和普通語(yǔ)音識別相媲美,只有這樣才能討論更加長(cháng)遠的應用。另?yè)?,張瑞東所在的團隊專(zhuān)注于研究智能傳感器件,此前他們還曾造出可以檢測表情的耳機等創(chuàng )新設備。目前,該團隊已有超過(guò) 20 項正在申請的美國專(zhuān)利和國際專(zhuān)利。 



*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 康奈爾

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>