<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 前饋網(wǎng)絡(luò )+線(xiàn)性交互層=殘差MLP,Facebook純MLP圖像分類(lèi)架構入場(chǎng)

前饋網(wǎng)絡(luò )+線(xiàn)性交互層=殘差MLP,Facebook純MLP圖像分類(lèi)架構入場(chǎng)

發(fā)布人:機器之心 時(shí)間:2021-05-13 來(lái)源:工程師 發(fā)布文章

最近一段時(shí)間,多層感知機(MLP)成為 CV 領(lǐng)域的重點(diǎn)研究對象,谷歌、清華大學(xué)等機構的研究者先后提出了純 MLP 構建的視覺(jué)架構和新的注意力機制,這些研究將 CV 的研究重心重新指向 MLP。近日,Facebook 提出了具有數據高效訓練、用于圖像分類(lèi)的純 MLP 架構 ResMLP,當采用現代的訓練方法時(shí),該架構在 ImageNet 數據集上實(shí)現了相對不錯的性能。

前幾天,谷歌提出的 MLP-Mixer 引爆 CV 圈,無(wú)需卷積、注意力機制,僅需 MLP 即可實(shí)現與 CNN、ViT 相媲美的性能。

同樣地,清華大學(xué)的 Jittor 團隊提出了一種新的注意機制,稱(chēng)之為「External Attention」,基于兩個(gè)外部的、小的、可學(xué)習的和共享的存儲器,只用兩個(gè)級聯(lián)的線(xiàn)性層和歸一化層就可以取代現有流行的學(xué)習架構中的「Self-attention」,進(jìn)一步揭示了線(xiàn)性層和注意力機制之間的關(guān)系;此外,清華大學(xué)丁貴廣團隊將 MLP 作為卷積網(wǎng)絡(luò )的一種通用組件實(shí)現多種任務(wù)性能提升。

MLP->CNN->Transformer->MLP 圈似乎已成為一種趨勢。

近日,來(lái)自 Facebook 的研究者進(jìn)一步推動(dòng)了這一趨勢,他們提出了 ResMLP(Residual Multi-Layer Perceptron ),一種用于圖像分類(lèi)的純多層感知機(MLP)架構。

1.png

論文鏈接:https://arxiv.org/pdf/2105.03404.pdf

該架構極為簡(jiǎn)單:它采用展平后的圖像 patch 作為輸入,通過(guò)線(xiàn)性層對其進(jìn)行映射,然后采用兩個(gè)殘差操作對投影特征進(jìn)行更新:(i)一個(gè)簡(jiǎn)單的線(xiàn)性 patch 交互層,獨立用于所有通道;(ii)帶有單一隱藏層的 MLP,獨立用于所有 patch。在網(wǎng)絡(luò )的末端,這些 patch 被平均池化,進(jìn)而饋入線(xiàn)性分類(lèi)器。

該架構是受 ViT 的啟發(fā),但更加簡(jiǎn)單:不采用任何形式的注意力機制,僅僅包含線(xiàn)性層與 GELU 非線(xiàn)性激活函數。該體系架構比 Transformer 的訓練要穩定,不需要特定 batch 或者跨通道的標準化(如 Batch-Norm、 GroupNorm 或 LayerNorm)。訓練過(guò)程基本延續了 DeiT 與 CaiT 的訓練方式。

由于 ResMLP 的線(xiàn)性特性,模型中的 patch 交互可以很容易地進(jìn)行可視化、可解釋。盡管第一層學(xué)習到的交互模式與小型卷積濾波器非常類(lèi)似,研究者在更深層觀(guān)察到 patch 間更微妙的交互作用,這些包括某些形式的軸向濾波器(axial filters)以及網(wǎng)絡(luò )早期長(cháng)期交互。

架構方法

ResMLP 的具體架構如下圖 1 所示,采用了路徑展平(flattening)結構:

2.png

整體流程

ResMLP 以 N×N 非重疊 patch 組成的網(wǎng)格作為輸入,其中 N 通常為 16。然后,這些非重疊 patch 獨立地通過(guò)一個(gè)線(xiàn)性層以形成 N^2 個(gè) d 維嵌入。接著(zhù),生成的 N^2 個(gè) d 維嵌入被饋入到一個(gè)殘差 MLP 層序列中以生成 N^2 個(gè) d 維輸出嵌入。這些輸出嵌入又被平均為一個(gè)表征圖像的 d 維向量,這個(gè) d 維向量被饋入到線(xiàn)性分類(lèi)器中以預測與圖像相關(guān)的標簽。訓練中使用到了交叉熵損失。

殘差多感知機層 

網(wǎng)絡(luò )序列中的所有層具有相同的結構:線(xiàn)性子層 + 前饋子層。類(lèi)似于 Transformer 層,每個(gè)子層與跳遠連接(skip-connection)并行。研究者沒(méi)有使用層歸一化(LayerNormalization),這是因為當使用公式(1)中的 Affine 轉換時(shí),即使沒(méi)有層歸一化,訓練也是穩定的。

3.png

研究者針對每個(gè)殘差塊都使用了兩次 Affine 轉換。作為預歸一化,Aff 替代了層歸一化,并不再使用通道級統計(channel-wise statistics)。作為殘差塊的后處理,Aff 實(shí)現了層擴展(LayerScale),因而可以在后歸一化時(shí)采用與 [50] 中相同的小值初始化。這兩種轉換在推理時(shí)均集成至線(xiàn)性層。

此外,研究者在前饋子層中采用與 Transformer 中相同的結構,并且只使用 GELU 函數替代 ReLU 非線(xiàn)性。

與 Transformer 層的主要區別在于,研究者使用以下公式(2)中定義的線(xiàn)性交互替代自注意力:

4.png

與 ViT 的關(guān)聯(lián)

  • ResMLP 是 ViT 模型的大幅度簡(jiǎn)化,但具有以下幾個(gè)不同點(diǎn):

  • ResMLP 沒(méi)有采用任何自注意力塊,使用的是非線(xiàn)性(non-linearity)的線(xiàn)性 patch 交互層;

  • ResMLP 沒(méi)有采用額外的「類(lèi)(class)」token,相反只使用了平均池化;

  • ResMLP 沒(méi)有采用任何形式的位置嵌入,不需要的原因是 patch 之間的線(xiàn)性通信模塊考慮到了 patch 位置;

  • ResMLP 沒(méi)有采用預層歸一化,相反使用了簡(jiǎn)單的可學(xué)習 affine 轉換,從而避免了任何形式的批和通道級統計。

實(shí)驗結果

研究者在 ImageNet-1k 數據集上訓練模型,該數據集包含 1.2M 張圖像,平均分布在 1000 個(gè)對象類(lèi)別中。他們在實(shí)驗中采用了兩種訓練范式:監督學(xué)習和知識蒸餾。

首先,研究者將 ResMLP 與 Transformer、convnet 在監督學(xué)習框架下進(jìn)行了比較,如下表 1 所示,ResMLP 取得了相對不錯的 Top-1 準確率。

5.jpg

其次,利用知識蒸餾提高模型的收斂性,結果如下表 2 所示。與 DeiT 模型類(lèi)似,ResMLP 可以從 convnet 蒸餾中顯著(zhù)獲益。

6.png

實(shí)驗還評估了 ResMLP 在遷移學(xué)習方面的性能。下表 3 展示了不同網(wǎng)絡(luò )架構在不同圖像基準上的性能表現,數據集采用了 CIFAR-10、CIFAR100、Flowers-1022、 Stanford Cars 以及 iNaturalist 。

7.png

權重稀疏性測量也是研究者的關(guān)注點(diǎn)之一。下圖 2 的 ResMLP-24 線(xiàn)性層的可視化結果表明線(xiàn)性通信層是稀疏的,并在下圖 3 中進(jìn)行了更詳細的定量分析。結果表明,所有三個(gè)矩陣都是稀疏的,實(shí)現 patch 通信的層明顯更稀疏。

8.jpg

最后,研究者探討了 MLP 的過(guò)擬合控制,下圖 4 控制實(shí)驗中探索了泛化問(wèn)題。

9.jpg

參考鏈接:https://bbs.cvmart.net/post/4750

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>