擴散模型「讀腦術(shù)」,自動(dòng)化所MindDiffuser清晰重建人腦視覺(jué)畫(huà)面
從腦信號中重建相應的視覺(jué)刺激都是一項有意義且充滿(mǎn)挑戰性的工作,先前已經(jīng)有研究成功得到了與原圖結構相近的重建結果,如:一些自然圖像的輪廓、大小,但是缺乏明確的語(yǔ)義信息,難以辨別。
近年來(lái),借助多模態(tài)預訓練大模型與生成能力更強的 AI ,不少工作都得到了在語(yǔ)義上與原圖十分接近的重建圖像,但這些圖像在位置、朝向等結構信息上不可控。
為了同時(shí)解決以上兩個(gè)問(wèn)題,中科院自動(dòng)化所的盧一卓、杜長(cháng)德等人借助 Stable Diffusion 和 CLIP 新提出了一種基于擴散模型的兩階段圖像重建模型 MindDiffuser,相關(guān)論文已被國際多媒體大會(huì ) ACM MM 2023 接受。結果表明,本文提出的模型的重建結果已超過(guò)目前最優(yōu)的模型??梢暬Y果也證明了本文的模型設計在神經(jīng)生物學(xué)上的可解釋性。
論文地址:https://arxiv.org/pdf/2308.04249.pdf
代碼地址:https://github.com/ReedOnePeck/MindDiffuser
第一行為原圖,第二行為從大腦 fMRI 信號中重建圖像
研究背景
人類(lèi)視覺(jué)神經(jīng)系統能夠高效地感知和理解現實(shí)世界中的復雜視覺(jué)刺激,這種突出的能力是當下的人工智能系統無(wú)法比擬的。通過(guò)神經(jīng)編碼和解碼模型來(lái)研究不同腦區的功能可以使我們更加深入地理解人類(lèi)視覺(jué)感知系統。
視覺(jué)神經(jīng)編碼指的是將外部視覺(jué)刺激擬合成神經(jīng)活動(dòng)信號的過(guò)程,視覺(jué)神經(jīng)解碼則是要找到一個(gè)從神經(jīng)信號到對應視覺(jué)刺激的映射,根據解碼難度和目標的不同,可以把它們劃分為刺激分類(lèi)、刺激識別與刺激重建。在刺激分類(lèi)中,大腦活動(dòng)被用來(lái)預測所呈現刺激的離散客體類(lèi)別。刺激識別的目的是從一組已知的刺激圖像中識別出與給定的大腦活動(dòng)模式相對應的特定刺激。刺激重建則是要直接通過(guò)給定的 fMRI 信號生成圖像,并且要求其形狀、位置、朝向等細節與對應刺激圖像對齊。本研究專(zhuān)注于研究刺激重建。
在詳細調研圖像重建領(lǐng)域已有的研究后,根據其模型結構,作者把目前的圖像重建范式歸納為:生成式模型和優(yōu)化式模型。
生成式模型在訓練階段,提取刺激圖像和相應文本描述的特征,利用相應的腦響應去擬合這些特征,在測試階段,用腦響應預測出對應的特征,將其輸入訓練好的生成模型,即可重建出對應的圖像刺激。
優(yōu)化式模型在訓練階段提取刺激圖像的層次特征并用相應的腦響應去擬合,在測試階段,首先隨機初始化生成模型的隱空間,并且提取出隨機生成的初始圖像的層次特征,接著(zhù)把腦響應預測出的對應的層次特征作為約束,通過(guò)反向傳播優(yōu)化隱空間,最終得到收斂的重建圖像。
目前這兩種重建范式都各自存在一些問(wèn)題,針對以上問(wèn)題本研究提出了一個(gè)新的框架來(lái)解決他們。
可控圖像重建模型 ——MindDiffuser
如圖 (a) 所示,首先提取出圖像的 CLIP 視覺(jué)特征,VQVAE 特征,以及對應的文本描述特征,接著(zhù)使用相應的腦信號去擬合這三種特征。然后通過(guò)兩個(gè)階段來(lái)實(shí)現圖像重建任務(wù)。接下來(lái)將詳細地介紹這兩個(gè)階段。
在階段一,首先利用腦信號解碼出 VQVAE 特征,將其通過(guò)一個(gè)前向擴散過(guò)程隱式的為擴散模型隱空間注入圖像信息,接著(zhù)在反向去噪過(guò)程中通過(guò)交叉注意力機制引入腦信號解碼出的 CLIP 文本特征,至此完成了對重建圖像的語(yǔ)義信息融合。
在階段二,為了進(jìn)一步對齊重建圖像的結構信息,研究人員以 CLIP 圖像特征為約束,通過(guò)反向傳播梯度不斷調整擴散模型的隱空間,得到語(yǔ)義和結構都與原圖對齊的重建結果。
實(shí)驗結果
作者在目前規模最大的神經(jīng)影像數據集 NSD 上進(jìn)行了詳細的實(shí)驗,在四種評價(jià)指標上的結果表明,提出的 MindDiffuser 重建出的圖像與原圖無(wú)論在語(yǔ)義相似度,還是結構相似度上都超過(guò)了目前的 sota 模型。
由于不同個(gè)體的大腦在解剖結構和功能連接上有著(zhù)差異 [61],因此即使給不同的被試觀(guān)看相同的圖像刺激,采集到的 fMRI 信號也不同,為了驗證本文提出的圖像重建模型可以適應不同被試間的差異,研究團隊在不加任何其他額外調整的情況下,對被試 1、2、5、7 的測試集圖像進(jìn)行了重建,結果如下圖所示:
從圖 4-13 中可以看出對于相同的刺激圖像,由于不同的被試在采集 fMRI 信號時(shí)的大腦主觀(guān)反應以及特征解碼階段的準確率有差異導致一些圖像的重建結果并不令人滿(mǎn)意,比如:被試 7 把 “桌子上的花” 錯誤的重建為 “桌子和椅子”,被試 5 無(wú)法重建出 “黃昏下的飛機”。但是大部分重建出來(lái)的圖像對于研究人員選取的每一個(gè)被試在語(yǔ)義與結構上都表現出了與原圖較好的對齊,這表明他們提出的圖像重建模型可以很好的適應不同被試間的差異。
在特征解碼階段,本文使用 L2 正則化的線(xiàn)性回歸模型自動(dòng)挑選體素來(lái)擬合三種特征:語(yǔ)義特征 c,細節特征 z,結構特征 zCLIP,為了驗證提出的模型在神經(jīng)科學(xué)上的可解釋性,本文將 fMRI 每個(gè)體素在預測不同特征時(shí)的權重投影到展開(kāi)的大腦皮層上。
從圖 (a) 中可以看出在解碼語(yǔ)義特征 c 的時(shí)候,被篩選出來(lái)的體素絕大多數集中在 IPS、LO、MT、MST、PHC、VO 等處理高級語(yǔ)義的腦區,且分布在高級視皮層區域的體素權重要大于分布在低級視皮層區域的體素。從圖 (b) 中可以看出,用于監督重建圖像結構特征的 CLIP 底層線(xiàn)性層特征主要 V1、V2、V3、V3ab、hV4 等處理局部形狀、紋理信息的低級腦區擬合。這表明,研究團隊的模型在神經(jīng)解碼階段,語(yǔ)義特征主要由高級腦區解釋?zhuān)Y構特征主要由低級腦區解釋?zhuān)@一發(fā)現與神經(jīng)科學(xué)先前的研究結果相一致。從圖 (c) 中可以看出,高級視皮層與低級視皮層區域的體素都參與了解碼細節特征 z,且權重大小相當,這說(shuō)明通過(guò)解碼 z,使得交叉注意力機制為重建圖像融入了更加細粒度的語(yǔ)義與結構信息。以上可視化結果說(shuō)明,MindDiffuser 在重建圖像時(shí)使用的多模態(tài)信息可以很好被解釋。
綜上,本文提出了一個(gè)兩階段圖像重建模型 MindDiffuser,該模型將重建圖像的語(yǔ)義和結構信息與圖像刺激進(jìn)行對齊。在 NSD 數據集上,MindDiffuser 在定性和定量對比結果上都優(yōu)于目前的 sota 模型。同時(shí),實(shí)驗表明,MindDiffuser 對個(gè)體間的差異具有良好的適應性,在沒(méi)有任何額外調整的情況下,可以為被試 1、2、5 和 7 的刺激實(shí)現很好的重建結果。此外,可視化結果還證明,本文模型中利用的多模態(tài)信息可以通過(guò)神經(jīng)科學(xué)中相應的腦響應來(lái)解釋?zhuān)瑥亩炞C了模型設計的合理性與可解釋性。研究團隊認為,MindDiffuser 在促進(jìn)腦機接口的精確和可控刺激重建方面將發(fā)揮重要作用。
本論文由中科院自動(dòng)化所直博生(尚未入學(xué))盧一卓和副研究員杜長(cháng)德作為共同第一作者,何暉光研究員為通訊作者,周瓊怡博士是共同作者。研究工作得到了科技部科技創(chuàng )新 2030—“新一代人工智能” 重大項目、基金委項目、以及 CAAI - 華為 MindSpore 學(xué)術(shù)獎勵基金及智能基座等項目的支持。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。