Meta 可以通過(guò)腦電波猜測你聽(tīng)到了什么
新的人工智能可以?xún)H僅通過(guò)大腦測量猜測出正確的、被測者正在想象的單詞。

Meta 的研究科學(xué)家讓-雷米·金 (Jean-Rémi King) 告訴《時(shí)代》雜志,有許多不好的因素會(huì )剝奪某人的說(shuō)話(huà)能力——對這些受到影響的人來(lái)說(shuō),腦機接口可能是恢復溝通的關(guān)鍵。
“通過(guò)在患者大腦的運動(dòng)區域放置一個(gè)電極,我們可以解碼活動(dòng)并幫助患者與世界其他地方交流,”King 說(shuō)。
大腦植入物使用這樣的方法恢復癱瘓患者的交流能力:神經(jīng)植入物不需要指向單個(gè)字母或單詞,而是將他的想法直接轉化為單詞。
患有 ALS 的澳大利亞人 Phiip O'Keefe 擁有一個(gè)腦機接口芯片,可以讓他將自己的想法轉化為文本,從而打開(kāi)了包括Twitter在內的整個(gè)電子通信世界。此外,一名 ALS 進(jìn)展為完全閉鎖綜合征的患者也接受了一種允許交流的植入物。
Meta 的研究人員正在構建用于在大腦中解碼語(yǔ)音的 AI 模型。
“但是將電極放入某人的大腦中顯然是極具侵入性的?!?King 說(shuō)。
(在 O'Keefe 的案例中,值得注意的是,植入物是通過(guò)他的頸靜脈進(jìn)入的,因此他不需要進(jìn)行開(kāi)顱手術(shù),盡管這是一項重大手術(shù)。)
“所以我們想嘗試使用非侵入性的大腦活動(dòng)記錄。最終目標是建立一個(gè)人工智能系統,可以解碼大腦對口述內容的反應?!?/span>
Facebook 人工智能研究 (FAIR) 實(shí)驗室的 King 和他的同事已經(jīng)開(kāi)始這樣做,他們創(chuàng )造了一種深度學(xué)習 AI,能夠在一定程度上從腦電波中解碼語(yǔ)音。
King 在Meta AI 的博客中寫(xiě)道,在他們目前作為預印本在線(xiàn)的研究中,該團隊使用了之前在 FAIR 創(chuàng )建的開(kāi)源算法來(lái)分析已經(jīng)存在的數據集。
這些數據集包含 169 名健康志愿者在聽(tīng)荷蘭語(yǔ)和英語(yǔ)有聲讀物時(shí)的大腦記錄,累積超過(guò) 150 小時(shí)。
由于目標是非侵入性地解碼語(yǔ)音,因此該團隊使用通過(guò)測量大腦的電活動(dòng)(腦電圖或 EEG)和磁活動(dòng)(稱(chēng)為腦磁圖或 MEG)記錄的數據。
兩者都是通過(guò)頭骨外部的傳感器記錄的,這構成了研究人員的主要挑戰之一,King 告訴時(shí)代周刊:數據的“嘈雜”程度受限于傳感器與大腦的距離,以及皮膚、頭骨、水等的影響,會(huì )導致信號質(zhì)量降低。所有這些噪音都變得更加難以消除,因此我們不能 100% 確定我們在尋找什么。
“另一個(gè)大問(wèn)題更具概念性,因為我們實(shí)際上在很大程度上不知道大腦如何代表語(yǔ)言?!盞ing 說(shuō)。
人工智能使用有聲讀物和大腦錄音,分析它們以研究聽(tīng)到的單詞和腦電波之間的工作模式。
這就是團隊想要外包給人工智能的解碼語(yǔ)音的問(wèn)題,因為它通過(guò)一個(gè)動(dòng)作來(lái)預測大腦活動(dòng)——這將決定,在這種情況下,一個(gè)對象會(huì )聽(tīng)到什么。
如果沒(méi)有人工智能,“事情將很難說(shuō),‘好吧,這個(gè)大腦活動(dòng)意味著(zhù)這個(gè)詞,這個(gè)音素,或者一個(gè)行動(dòng)的意圖,或者其他什么?!盞ing 說(shuō)。
解碼語(yǔ)音:將這些時(shí)間分成三秒位后,他們將有聲讀物和大腦錄音提供給人工智能,人工智能對其進(jìn)行分析,嘗試發(fā)現模式。
據《新科學(xué)家》報道,該團隊保留了 10% 的數據來(lái)測試他們的模型:使用從其他 90% 中學(xué)習到的模式來(lái)嘗試識別它從未見(jiàn)過(guò)的大腦記錄中聽(tīng)到的單詞。
“經(jīng)過(guò)訓練,我們的系統執行所謂的零樣本分類(lèi):給定一個(gè)大腦活動(dòng)片段,它可以從大量新音頻片段中確定這個(gè)人實(shí)際聽(tīng)到的是哪個(gè)片段?!盞ing 在 Meta 博客中寫(xiě)道?!八惴ɑ谶@種設計推斷出這個(gè)人最有可能聽(tīng)到的詞?!?/span>
具體來(lái)說(shuō),據《新科學(xué)家》報道,人工智能依靠其 793 個(gè)單詞的詞匯表來(lái)制作十個(gè)單詞列表,以粗略地解碼語(yǔ)音。
根據他們的預印本,當使用三秒的 MEG 數據時(shí),人工智能能夠在 72.5% 的時(shí)間內在前十名中得到正確的詞——在 44% 的測試中首先猜到它——而在 EEG 數據中則為 19.1%。

人工智能能夠在高達 72.5% 的測試中提供包含正確單詞的答案列表。
不過(guò),倫敦帝國理工學(xué)院教授 Thomas Knopfel 告訴《新科學(xué)家》,該系統需要更多改進(jìn)才能真正用于語(yǔ)音解碼,并且懷疑 EEG 和 MEG(非侵入性方案)能否提供更準確所需的精細細節.
“這是關(guān)于信息流的?!盞nopfel 告訴《新科學(xué)家》?!斑@就像試圖通過(guò)老式模擬電話(huà)調制解調器播放高清電影。即使在理想的條件下,有人戴著(zhù)耳機坐在黑暗的房間里,只是在聽(tīng)音頻,大腦中也會(huì )同時(shí)發(fā)生其他事情。在現實(shí)世界中,腦海中只有一個(gè)想法獨立地發(fā)生完全不可能?!?/span>
然而,技術(shù)進(jìn)步可能會(huì )改變這一點(diǎn):一種稱(chēng)為OPM的新型 MEG正在推動(dòng)可以從外部學(xué)習的范圍。
就他而言,King 告訴《時(shí)代》雜志,他們目前只對語(yǔ)音進(jìn)行解碼,以講述人們在掃描儀中聽(tīng)到的內容。它還不是用于設計產(chǎn)品,而只是作為基礎研究和原理證明。
來(lái)源:中國信息通信研究院知識產(chǎn)權中心
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。