Transformer工業(yè)部署落地!超越ResNet、CSWin(附源碼)
論文地址:https://arxiv.org/pdf/2207.05501.pdf
一、總概述
NCB 和 NTB 分別使用新穎的部署友好的多頭卷積注意力 (MHCA) 和輕量級的高低頻信號混合器來(lái)增強建模能力。為了進(jìn)一步提高性能,設計了 Next Hybrid Strategy (NHS),通過(guò)在每個(gè)階段以新的混合范式堆疊 NCB 和 NTB,大大降低了 Transformer 塊的比例,并在各種下游任務(wù)中最大程度地保留了 Vision Transformer 網(wǎng)絡(luò )的高精度。
與現有的基于 CNN 和 ViT 的方法相比,Next-ViT 在延遲/準確性權衡方面表現出優(yōu)越的性能。實(shí)驗結果表明,Next-ViT 在各種下游任務(wù)中取得了最先進(jìn)的結果,包括圖像分類(lèi)、目標檢測和語(yǔ)義分割。因此,Next-ViT 是一個(gè)強大的模型,可以有效地應用于現實(shí)工業(yè)場(chǎng)景中的各種計算機視覺(jué)任務(wù)。
二、動(dòng)機
由于傳統的卷積神經(jīng)網(wǎng)絡(luò )(CNN)和Vision Transformer(ViT)在現實(shí)的工業(yè)場(chǎng)景中存在一些局限性,因此該論文提出了Next-ViT模型。具體來(lái)說(shuō),傳統的CNN在處理長(cháng)序列時(shí)缺乏全局性,而ViT雖然具有全局性,但它們的注意力機制復雜,導致計算量大且效率低下。為了克服這些缺點(diǎn),Next-ViT引入了Next Convolution Block(NCB)和Next Transformer Block(NTB),并設計了Next Hybrid Strategy(NHS)來(lái)提高模型的性能。
Next-ViT遵循分層的金字塔體系結構,在每個(gè)階段都有一個(gè)patch embedding層和一系列的卷積或Transformer blocks。該模型使用MHCA(多頭卷積注意力)來(lái)增強建模能力,通過(guò)創(chuàng )新的CNN和Transformer架構方式實(shí)現高性能和高效率相結合。Next-ViT在各種計算機視覺(jué)任務(wù)中取得了最先進(jìn)的結果,包括圖像分類(lèi)、目標檢測和語(yǔ)義分割。因此,Next-ViT是一個(gè)強大的模型,可以有效地應用于現實(shí)工業(yè)場(chǎng)景中的各種計算機視覺(jué)任務(wù)。
Next-ViT和高效網(wǎng)絡(luò )在精度-延遲權衡方面的比較
三、新框架
按照慣例,Next-ViT遵循分層的金字塔體系結構,在每個(gè)階段都有一個(gè)patch embedding層和一系列的卷積或Transformer blocks??臻g分辨率將逐步降低32×,而通道尺寸將在不同的階段中擴大。
Next Convolution Block (NCB)
為了展示所提出的NCB的優(yōu)越性,首先重新審視卷積和Transformer blocks的一些經(jīng)典結構設計,下圖所示。ResNet提出的BottleNeck塊因其固有的歸納偏差和部署而在視覺(jué)神經(jīng)網(wǎng)絡(luò )中長(cháng)期占據主導地位。大多數硬件平臺的友好特性。
Next Transformer Block (NTB)
雖然通過(guò)NCB已經(jīng)有效地學(xué)習了局部表示,但全局信息的捕獲迫切需要解決。Transformer Block具有較強的捕獲低頻信號的能力,從而提供全局信息(例如全局形狀和結構)。然而,相關(guān)研究觀(guān)察到,Transformer Block可能會(huì )在一定程度上惡化高頻信息,如局部紋理信息。不同頻率段的信號在人類(lèi)視覺(jué)系統中是不可缺少的,并將以某種特定的方式融合,提取更基本和明顯的特征。
三、實(shí)驗及結果
(a) Fourier spectrum of ResNet, Swin and Next-ViT. (b) Heat maps of the output feature from ResNet, Swin and Next-ViT.
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。