CBAM注意力模型介紹
本文分享自天翼云開(kāi)發(fā)者社區《CBAM注意力模型介紹》,作者:Liuzijia
近年來(lái),注意力機制在各項深度學(xué)習任務(wù)中表現出色。研究表明,人類(lèi)視覺(jué)感知過(guò)程中,注意力機制發(fā)揮了積極的效果,可以幫助人們高效和自適應的處理視覺(jué)信息并聚焦于顯著(zhù)的畫(huà)面區域,從而能夠做出最準確的判斷。因此,通過(guò)模擬視覺(jué)注意力機制,在網(wǎng)絡(luò )結構中加入注意力模塊,使模型可以更加關(guān)注待分類(lèi)圖像中的關(guān)鍵信息,抑制不相關(guān)的特征信息,促使模型對重要的特征區域更加敏感,從而有效提升相關(guān)任務(wù)的性能。本文簡(jiǎn)要介紹一種經(jīng)典的混合注意力模型CBAM。
CBAM[1]是一種結合了通道與空間注意力的混合注意力模塊,通過(guò)該模塊可以自適應的強化特征提取過(guò)程。
圖1 CBAM結構(引用自文獻[1])
圖1為CBAM的結構。對于輸入特征圖,該模塊會(huì )依次推斷出一個(gè)通道注意力圖M_c和一個(gè)空間注意力圖M_s,如式1和式2所示:
其中,F表示輸入特征圖;M_c表示得到通道注意力圖;F'表示通道注意力模塊的輸出特征圖;M_s表示得到的空間注意力圖;F''表示該模塊的最終輸出;x表示矩陣對應元素相乘。
圖2 通道注意力模塊(引用自文獻[1])
圖2為CBAM的通道注意力模塊結構。對于輸入特征圖,首先利用在空間維度上的平均池化和最大值池化進(jìn)行壓縮,結合兩種池化是為了對特征權重的學(xué)習更加精細,從而提升網(wǎng)絡(luò )的特征表示能力,然后將池化后的特征輸入到多層感知機中,為了減少計算參數量,會(huì )對隱藏層的大小進(jìn)行降維,最后經(jīng)激活函數得到注意力圖,其計算過(guò)程如式3所示:
其中,σ表示Sigmoid激活函數;F_avg和F_max分別表示空間維度上的平均池化(AvgPool)和最大值池化(MaxPool);W_0和W_1表示多層感知機(MLP)的共享參數;F表示輸入特征圖。
圖3 空間注意力模塊(引用自文獻[1])
圖3為CBAM的空間注意力模塊。首先利用在通道維度上的平均池化和最大值池化對輸入特征圖進(jìn)行操作,然后拼接大小均為H×W×1的兩個(gè)特征圖,這樣可以得到一個(gè)大小為H×W×2的特征圖,最后利用一個(gè)卷積操作并經(jīng)激活函數后得到空間注意力圖,其計算過(guò)程如式4所示:
其中,σ表示Sigmoid激活函數;f(7×7)表示尺寸為7 的卷積核;F_avg和F_max分別表示在通道維度上的平均池化(AvgPool)和最大值池化(MaxPool);F表示輸入特征圖。
[1] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 3-19
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。