YOLOS：通過(guò)目標檢測重新思考Transformer

發(fā)布人：計算機視覺(jué)工坊時(shí)間：2021-12-15 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

論文地址：https://arxiv.org/pdf/2106.00666.pdf

源代碼地址：https://github.com/hustvl/YOLOS

1 前言

Transformer能否從純序列到序列的角度執行2D目標級識別，而對2D空間結構知之甚少？為了回答這個(gè)問(wèn)題，今天就展示了“You Only Look at One Sequence” (YOLOS)，這是一系列基于樸素視覺(jué)變換器的目標檢測模型，具有盡可能少的修改和inductive biases。

YOLOS-S, 200 epochs pre-trained, COCO AP = 36.1

我們發(fā)現僅在中等大小的ImageNet-1k數據集上預訓練的YOLOS已經(jīng)可以在COCO上實(shí)現具有競爭力的目標檢測性能，例如直接從BERT-Base中采用的YOLOS-Base可以實(shí)現42.0 box AP。研究者還通過(guò)目標檢測討論了當前預訓練方案和模型縮放策略對Transformer在視覺(jué)中的影響和局限性。

2背景

Transformer為遷移而生。在自然語(yǔ)言處理 (NLP) 中，主要方法是首先在大型通用語(yǔ)料庫上預訓練Transformer以進(jìn)行通用語(yǔ)言表示學(xué)習，然后針對特定目標任務(wù)對模型進(jìn)行微調。最近，Vision Transformer(ViT)表明，直接從NLP繼承的典型Transformer編碼器架構可以使用現代視覺(jué)遷移學(xué)習配方在大規模圖像識別上表現出奇的好。將圖像補丁嵌入序列作為輸入，ViT可以從純序列到序列的角度成功地將預訓練的通用視覺(jué)表示從足夠的規模轉移到更具體的圖像分類(lèi)任務(wù)，數據點(diǎn)更少。

ViT-FRCNN是第一個(gè)使用預訓練的ViT作為R-CNN目標檢測器的主干。然而，這種設計無(wú)法擺脫對卷積神經(jīng)網(wǎng)絡(luò )(CNN)和強2D歸納偏差的依賴(lài)，因為ViT-FRCNN將ViT的輸出序列重新解釋為2D空間特征圖，并依賴(lài)于區域池化操作（即RoIPool或RoIAlign）以及基于區域的CNN架構來(lái)解碼ViT特征以實(shí)現目標級感知。受現代CNN設計的啟發(fā)，最近的一些工作將金字塔特征層次結構和局部性引入Vision Transformer設計，這在很大程度上提高了包括目標檢測在內的密集預測任務(wù)的性能。然而，這些架構是面向性能的。另一系列工作，DEtection TRansformer(DETR)系列，使用隨機初始化的Transformer對CNN特征進(jìn)行編碼和解碼，這并未揭示預訓練Transformer在目標檢測中的可遷移性。

ViT-FRCNN

為了解決上面涉及的問(wèn)題，有研究者展示了You Only Look at One Sequence (YOLOS)，這是一系列基于規范ViT架構的目標檢測模型，具有盡可能少的修改以及注入的歸納偏置。從ViT到YOLOS檢測器的變化很簡(jiǎn)單：

YOLOS在ViT中刪除[CLS]標記，并將一百個(gè)可學(xué)習的[DET]標記附加到輸入序列以進(jìn)行目標檢測；

YOLOS將ViT中的圖像分類(lèi)損失替換為bipartite matching loss，以遵循Carion等人【End-to-end object detection with transformers】的一套預測方式進(jìn)行目標檢測。這可以避免將ViT的輸出序列重新解釋為2D特征圖，并防止在標簽分配期間手動(dòng)注入啟發(fā)式和對象2D空間結構的先驗知識。

3 新框架

YOLOS刪除用于圖像分類(lèi)的[CLS]標記，并將一百個(gè)隨機初始化的檢測標記（[DET] 標記）附加到輸入補丁嵌入序列以進(jìn)行目標檢測。

在訓練過(guò)程中，YOLOS將ViT中的圖像分類(lèi)損失替換為bipartite matching loss，這里重點(diǎn)介紹YOLOS的設計方法論。

Detection Token

我們有目的地選擇隨機初始化的[DET]標記作為目標表示的代理，以避免2D結構的歸納偏差和在標簽分配期間注入的任務(wù)的先驗知識。在對COCO進(jìn)行微調時(shí)，對于每次前向傳遞，在[DET]tokens生成的預測與真實(shí)對象之間建立最佳二分匹配。該過(guò)程與標簽分配的作用相同，但不知道輸入的2D結構，即YOLOS不需要將ViT的輸出序列重新解釋為用于標簽分配的2D特征圖。理論上，YOLOS在不知道確切的空間結構和幾何形狀的情況下執行任何維度的物體檢測是可行的，只要每次通過(guò)輸入總是以相同的方式展平為一個(gè)序列。

YOLOS-S, 300 epochs pre-trained, COCO AP = 36.1

Fine-tuning at Higher Resolution

在COCO上進(jìn)行微調時(shí)，除用于分類(lèi)和邊界框回歸的MLP頭以及隨機初始化的100個(gè)[DET]標記外，所有參數均從ImageNet-1k預訓練權重初始化。分類(lèi)和邊界框回歸頭均由MLP實(shí)現，具有兩個(gè)使用單獨參數的隱藏層。

在微調期間，圖像具有比預訓練高得多的分辨率，為了保持補丁大小相同（16 × 16），這導致更大的有效序列長(cháng)度。雖然ViT可以處理任意序列長(cháng)度，但位置嵌入需要適應更長(cháng)的輸入序列。我們以相同的方式對預訓練的位置嵌入進(jìn)行2D插值。

4實(shí)驗分析及可視化

YOLOS的不同版本的結果

與訓練的效果

不同尺度模型的預訓練和遷移學(xué)習性能

與一些小型CNN檢測器的比較

Self-attention Maps of YOLOS

檢驗與YOLOS-S最后一層頭部預測相關(guān)的[DET]tokens的自注意力?？梢暬痯ipeline遵循【 Emerging properties in self-supervised vision transformers】?？梢暬Y果如下圖所示。

對于給定的YOLOS模型，不同的自注意力頭關(guān)注不同的模式和不同的位置。一些可視化是可解釋的，而另一些則不是。

我們研究了兩個(gè)YOLOS模型的注意力圖差異，即200 epochs ImageNet-1k預訓練YOLOS-S和300 epochs ImageNet-1k預訓練YOLOS-S。注意這兩個(gè)模型的AP是一樣的（AP=36.1）。從可視化中，我們得出結論，對于給定的預測對象，相應的[DET]標記以及注意力圖模式通常對于不同的模型是不同的。

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

博客專(zhuān)欄

YOLOS：通過(guò)目標檢測重新思考Transformer

相關(guān)推薦

技術(shù)專(zhuān)區