<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 2015年的ResNet潛力都挖掘出來(lái)了嗎?新研究:不用蒸餾、無(wú)額外數據,性能還能漲一波

2015年的ResNet潛力都挖掘出來(lái)了嗎?新研究:不用蒸餾、無(wú)額外數據,性能還能漲一波

發(fā)布人:機器之心 時(shí)間:2021-10-07 來(lái)源:工程師 發(fā)布文章

基線(xiàn):我要是用上最新的訓練流程,性能還能漲一波。

在計算機視覺(jué)領(lǐng)域,何愷明等人 2015 年提出的 ResNet(deep residual network,深度殘差網(wǎng)絡(luò ))一直被視為經(jīng)典架構,它解決了深度 CNN 模型難訓練的問(wèn)題,是 CNN 圖像史上的一個(gè)里程碑之作。

自提出以來(lái),ResNet 系列模型一直被用作研究中的默認架構,或者新模型提出時(shí)用來(lái)對比的基線(xiàn)。然而,在過(guò)去的幾年里,神經(jīng)網(wǎng)絡(luò )訓練方面的最佳實(shí)踐已經(jīng)取得了很大進(jìn)展。新穎的優(yōu)化、數據增強等方法提高了訓練流程的有效性。

在這篇論文中,獨立研究者 Ross Wightman 以及 Facebook AI、索邦大學(xué)的兩位研究者重新評估了普通 ResNet-50 在加入上述訓練進(jìn)展之后所能達到的性能。

1.png

論文鏈接:https://arxiv.org/pdf/2110.00476.pdf

具體而言,研究者重新評估了使用不同訓練方法時(shí)普通 ResNet-50 的性能,并在 timm 開(kāi)源庫中分享了有競爭力的訓練設置和預訓練模型,希望它們可以成為未來(lái)研究工作的更好基線(xiàn)。例如,在 ImageNet-val 數據集上,使用研究者更高要求的訓練設置,并在無(wú)額外數據或蒸餾的情況下,普通 ResNet-50 在分辨率 224×224 下實(shí)現了 80.4% 的 top-1 準確率。

2.jpg

此外,研究者還報告了其他流行模型使用他們的訓練流程時(shí)取得的性能結果。

基線(xiàn)也需要與時(shí)俱進(jìn)

在過(guò)去的十幾年里,人們已經(jīng)見(jiàn)證了圖像分類(lèi)領(lǐng)域的很多重大進(jìn)展,這些反映在了 ILSVRC’2012 挑戰賽或其他圖像分類(lèi)基準測試結果的改進(jìn)上。從原理上來(lái)講,性能的提升反映了社區對下面這個(gè)問(wèn)題的最大化求解:

3.png

A 為架構設計,T 為訓練設置和超參數,N 為測量噪聲,其中還包括從大量超參數或方法中選擇最大值時(shí)經(jīng)常出現的過(guò)擬合。降低 N 的良好做法有幾種,比如使用不同的 seed 測量標準差、使用單獨的評估數據集或者在遷移任務(wù)上對模型進(jìn)行評估。

暫且撇開(kāi) N 不談,評估 A 或 T 上的進(jìn)展也構成了一個(gè)挑戰,這是因為它們的進(jìn)展隨時(shí)間推移而變化。當在 (A, T ) 上進(jìn)行聯(lián)合優(yōu)化時(shí),無(wú)法保證給定架構 A_1 的最優(yōu)選擇 T_1 依然是另一模型設計 A_2 的最佳選擇。因此,即使是在同一訓練流程下比較模型時(shí),人們也可能隱式地偏愛(ài)某一個(gè)模型。

將訓練流程與架構各自帶來(lái)的改進(jìn)分開(kāi)的一個(gè)好處是確?;€(xiàn)包含來(lái)自文獻的新「成分」,并在調整超參數方面付出合理的努力。理想狀態(tài)下,如果沒(méi)有資源和時(shí)間限制,人們可以為每個(gè)架構適配最佳的訓練流程,如下公式(1)所示:

4.png

但在現實(shí)中,這種理想狀態(tài)是不可能的。當比較架構時(shí),大多數論文往往與以往發(fā)表論文中的結果進(jìn)行比較,但被比較的這些架構使用的通常是相對較弱的訓練流程,最好的情況下也僅僅是使用類(lèi)似或相同的流程。

本文作者表示,他們還沒(méi)有發(fā)現專(zhuān)門(mén)通過(guò)廣泛的成分選擇和超參數搜索來(lái)提升 ResNet-50 訓練流程的研究努力。在以往的文獻中,ImageNet-1k-val 上報告的針對 ResNet-50 架構的性能范圍區間為 75.2% 到 79.5%,具體取決于論文本身。目前還不清楚是否已經(jīng)投入足夠的努力來(lái)進(jìn)一步推動(dòng)基線(xiàn)。因此,研究者想要填補這方面的研究空白。

研究者探究的是何愷明等人提出的普通 ResNet-50 架構。他們優(yōu)化訓練流程以最大化該模型在原始測試分辨率 224 × 224 下的性能。這里只考慮訓練流程(training recipe)。因此,研究者排除了 ResNet-50 的所有變體,如 SE-ResNet-50 或 ResNet-50-D,這些變體通常會(huì )在相同的訓練流程下提升準確率。

3 種不同的訓練流程

研究者提出了 3 種具有不同成本和性能的訓練流程,以覆蓋不同的用例,下表 1 展示了 3 種訓練流程的資源使用情況和 top-1 準確率結果。

5.png

這 3 種訓練流程以實(shí)現測試分辨率 224 × 224 下 ResNet-50 的最佳性能為目標。研究者探索了很多使用不同優(yōu)化器、正則化以及超參數合理網(wǎng)格搜索數量的變體。其中,他們主要關(guān)注以下三個(gè)不同的訓練流程:

流程 A1 旨在為 ResNet-50 提供最佳性能,因此 epoch 數量最多(600),訓練時(shí)間最長(cháng)(在一個(gè)配有 4 個(gè) V100 32GB GPU 的節點(diǎn)上訓練 4.6 天)

流程 A2 的 epoch 數量為 300,可與 DeiT 等其他幾個(gè)優(yōu)秀訓練流程媲美,但批大小更大(2048)。

流程 A3 旨在通過(guò) 100 個(gè) epoch 和 2048 的批大小超越普通 ResNet-50 的流程,它在 4 個(gè) V100 16GB GPU 上訓練了 15 個(gè)小時(shí),并且可能是探索性研究的良好設置。

如下表 2 所示,研究者將用于訓練普通 ResNet-50 的不同方法與他們的方法進(jìn)行了比較,其中只考慮修改了未修改的 ResNet-50 架構(即不考慮其他變體)。此外,研究者不考慮使用蒸餾之類(lèi)的高級訓練設置,或者通過(guò)自監督或偽標簽預訓練的模型。

6.jpg

實(shí)驗結果

上表 1 總結了文中提出的訓練流程的主要特點(diǎn)。研究者表示,就他們所知,使用訓練流程 A1 訓練的一個(gè)普通 ResNet-50 架構在 224×224 分辨率的 ImageNet 圖像測試中超越了 SOTA 模型。其他兩個(gè)訓練流程(A2、A3)雖然沒(méi)有達到 A1 的水平,但也用較少的資源實(shí)現了較高的性能。

在下表 3 中,研究者記錄了使用本文提出的訓練流程訓練其他架構時(shí)的效果,以測試這些訓練流程在其他模型上的泛化能力。在某些情況下,研究者觀(guān)察到 A2 要優(yōu)于 A1,這表明超參數不適用于較長(cháng)的 schedule(通常需要更多的正則化)。

7.jpg

在下表 4 中,研究者對表 3 中的結果進(jìn)行了補充。

8.jpg

在下表 5 中,研究者記錄了使用不同的預訓練流程在 7 個(gè)細粒度數據集上得到的遷移學(xué)習性能數據,并與默認的 PyTorch 預訓練進(jìn)行了比較??傮w來(lái)看,A1 在大多數下游任務(wù)中都達到了最好的性能。

9.png

更多細節請參見(jiàn)論文。

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 機器視覺(jué)

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>