AI 看唇語(yǔ),在嘈雜場(chǎng)景的語(yǔ)音識別準確率高達75%
編譯 | 禾木木
出品 | AI科技大本營(yíng)(ID:rgznai100)
人們通過(guò)聆聽(tīng)和觀(guān)察說(shuō)話(huà)者的嘴唇動(dòng)作來(lái)感知言語(yǔ)。
那么,AI 也可以嗎?
事實(shí)上,研究表明視覺(jué)線(xiàn)索在語(yǔ)言學(xué)習中起著(zhù)關(guān)鍵的作用。相比之下,人工智能語(yǔ)言識別系統主要是建立在音頻上。而且需要大量數據來(lái)訓練,通常需要數萬(wàn)小時(shí)的記錄。
為了研究視覺(jué)效果,尤其是嘴部動(dòng)作的鏡頭,是否可以提高語(yǔ)音識別系統的性能。Meta 的研究人員開(kāi)發(fā)了 Audio-Visual Hidden Unit BERT (AV-HuBERT),這是一個(gè)通過(guò)觀(guān)看學(xué)習和聽(tīng)人們說(shuō)話(huà)來(lái)理解語(yǔ)言的框架。
Meta 聲稱(chēng) AV-HuBERT 比使用相同數量轉錄量的最佳視聽(tīng)語(yǔ)音識別系統準確率高 75%。此外,該公司表示,AV-HuBERT 使用十分之一的標記數據優(yōu)于以前最好的視聽(tīng)語(yǔ)言識別系統,這使得它可能對音視頻數據很少的語(yǔ)言具有潛在的用途。
Meta AI 研究科學(xué)家 Abdelrahman Mohamed 表示:“在未來(lái),像 AV-HuBERT 這樣的 AI 框架可用于提高語(yǔ)音識別技術(shù)在嘈雜的日常條件下的性能,例如,在聚會(huì )上或在熙熙攘攘的街頭中進(jìn)行的互動(dòng)。智能手機中的助手、增強現實(shí)眼鏡和配備攝像頭的智能揚聲器,例如 Alexa Echo Show 也可以在這項技術(shù)中受益?!?/p>
目前,Meta 已將相關(guān)代碼開(kāi)源到 GitHub。
AV-HuBERT
Meta 并不是第一個(gè)將人工智能應用于讀唇語(yǔ)問(wèn)題的公司。2016年,牛津大學(xué)的研究人員創(chuàng )建了一個(gè)系統,該系統在某些測試中的準確率幾乎是經(jīng)驗豐富的唇讀者的兩倍,并且可以實(shí)時(shí)地處理視頻。2017年,Alphabet 旗下的 DeepMind 在數千小時(shí)的電視節目中訓練了一個(gè)系統,在測試集上可以正確翻譯約 50%的單詞而沒(méi)有錯誤,遠高于人類(lèi)專(zhuān)家的 12.4%。
但是牛津大學(xué)和 DeepMind 的模型,與許多后續的唇讀模型一樣,在它們可以識別的詞匯范圍內受到限制。這些模型還需要與轉錄本配對的數據集才能進(jìn)行訓練,而且它們無(wú)法處理視頻中任何揚聲器的音頻。
有點(diǎn)獨特的是, AV-HuBERT 利用了無(wú)監督或自我監督的學(xué)習。通過(guò)監督學(xué)習,像 DeepMind 這樣的算法在標記的示例數據上進(jìn)行訓練,直到它們可以檢測到示例和特定輸出之間的潛在關(guān)系。例如,系統可能會(huì )被訓練在顯示柯基的圖片時(shí)寫(xiě)出單詞「dog」。然而,AV-HuBERT 自學(xué)對未標記的數據進(jìn)行分類(lèi),處理數據以從其固有結構中學(xué)習。
AV-HuBERT 也是多模態(tài)的,因為它通過(guò)一系列的音頻和唇部動(dòng)作提示來(lái)學(xué)習感知語(yǔ)言。通過(guò)結合說(shuō)話(huà)過(guò)程中嘴唇和牙齒的運動(dòng)等線(xiàn)索以及聽(tīng)覺(jué)信息,AV-HuBERT 可以捕捉這兩種數據類(lèi)型之間的細微關(guān)聯(lián)。
最初的 AV-HuBERT 模型在 30 小時(shí)的 TED Talk 視頻上進(jìn)行了訓練,大大少于之前最先進(jìn)模型的 31,000 小時(shí)的訓練時(shí)間。但是,盡管在較少的數據上進(jìn)行了訓練,AV-HuBERT 的單詞錯誤率 (WER)(衡量語(yǔ)音識別性能的指標)在可以看到但聽(tīng)不到說(shuō)話(huà)者的情況下略好于舊模型的 33.6%,前者為 32.5%。(WER 的計算方法是將錯誤識別的單詞數除以總單詞數;32.5% 轉化為大約每 30 個(gè)單詞出現一個(gè)錯誤。)在 433 小時(shí)的 TED 演講訓練進(jìn)一步將 AV-HuBERT 的 WER 降低到 28.6%。
一旦 AV-HuBERT 很好地了解了數據之間的結構和相關(guān)性,研究人員就能夠在未標記的數據上進(jìn)一步訓練它。上傳到 YouTube 的 2,442 小時(shí)名人英語(yǔ)視頻,這不僅使 WER 下降到 26.9%,而且 Meta 表示,它表明只需要少量標記數據來(lái)訓練特定應用程序(例如,當多人同時(shí)說(shuō)話(huà)時(shí))或不同語(yǔ)言的框架。
事實(shí)上,Meta 聲稱(chēng)當背景中播放響亮的音樂(lè )或噪音時(shí),AV-HuBERT 在識別一個(gè)人的語(yǔ)音方面比純音頻模型好約 50%,當語(yǔ)音和背景噪音同樣響亮時(shí),AV-HuBERT 的 WER 為 3.2%,而之前的最佳多模式模型為 25.5%。
潛在的缺點(diǎn)
在許多方面來(lái)看,AV-HuBERT 象征著(zhù) Meta 在用于復雜任務(wù)的無(wú)監督、多模式技術(shù)方面不斷增長(cháng)的投資。
Meta 表示 AV-HuBERT 可以為開(kāi)發(fā)“低資源”語(yǔ)言的對話(huà)模型開(kāi)辟可能性。該公司建議,AV-HuBERT 還可用于為有語(yǔ)言障礙的人創(chuàng )建語(yǔ)音識別系統,以及檢測深度偽造和為虛擬現實(shí)化身生成逼真的嘴唇運動(dòng)。
在各方面數據上,新方法的變現著(zhù)實(shí)很精彩,但也有學(xué)者有一些擔憂(yōu)。
其中,華盛頓大學(xué)的人工智能倫理學(xué)專(zhuān)家Os Keye就提到,對于因患有唐氏綜合征、中風(fēng)等疾病而導致面部癱瘓的人群,依賴(lài)讀唇的語(yǔ)音識別還有意義嗎?
在微軟和卡內基梅隆大學(xué)的一篇論文中,提出了人工智能公平性研究路線(xiàn)圖,指出類(lèi)似于 AV-HuBERT 的面部分析系統的某些方面可能不適用于患有唐氏綜合癥、軟骨發(fā)育不全(損害骨骼生長(cháng))和“導致特征性面部差異的其他條件”等。
Mohamed 強調 AV-HuBERT 只關(guān)注唇部區域來(lái)捕捉唇部運動(dòng),而不是整個(gè)面部。他補充說(shuō),與大多數 AI 模型類(lèi)似,AV-HuBERT 的性能將“與訓練數據中不同人群的代表性樣本數量成正比”。
“為了評估我們的方法,我們使用了公開(kāi)可用的 LRS3 數據集,該數據集由牛津大學(xué)研究人員于 2018 年公開(kāi)提供的 TED Talk 視頻組成。由于該數據集不代表殘疾說(shuō)話(huà)者,因此我們沒(méi)有預期性能下降的特定百分比,”Mohamed 說(shuō)。
Meta 表示,它將“繼續在背景噪聲和說(shuō)話(huà)者重疊很常見(jiàn)的日常場(chǎng)景中進(jìn)行基準測試和開(kāi)發(fā)改進(jìn)視聽(tīng)語(yǔ)音識別模型的方法?!?/p>
參考鏈接:
https://venturebeat.com/2022/01/07/meta-claims-its-ai-improves-speech-recognition-quality-by-reading-lips/
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。