<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 清華大學(xué)提出LiVT,用視覺(jué)Transformer學(xué)習長(cháng)尾數據,解決不平衡標注數據不在話(huà)下

清華大學(xué)提出LiVT,用視覺(jué)Transformer學(xué)習長(cháng)尾數據,解決不平衡標注數據不在話(huà)下

發(fā)布人:CV研究院 時(shí)間:2023-06-20 來(lái)源:工程師 發(fā)布文章

圖片

  • 論文鏈接:https://arxiv.org/abs/2212.02015
  • 代碼鏈接:https://github.com/XuZhengzhuo/LiVT

01

背  景


在機器學(xué)習領(lǐng)域中,學(xué)習不平衡的標注數據一直是一個(gè)常見(jiàn)而具有挑戰性的任務(wù)。近年來(lái),視覺(jué) Transformer 作為一種強大的模型,在多個(gè)視覺(jué)任務(wù)上展現出令人滿(mǎn)意的效果。然而,視覺(jué) Transformer 處理長(cháng)尾分布數據的能力和特性,還有待進(jìn)一步挖掘。目前,已有的長(cháng)尾識別模型很少直接利用長(cháng)尾數據對視覺(jué) Transformer(ViT)進(jìn)行訓練?;诂F成的預訓練權重進(jìn)行研究可能會(huì )導致不公平的比較結果,因此有必要對視覺(jué) Transformer 在長(cháng)尾數據下的表現進(jìn)行系統性的分析和總結。本文旨在填補這一研究空白,詳細探討了視覺(jué) Transformer 在處理長(cháng)尾數據時(shí)的優(yōu)勢和不足之處。本文將重點(diǎn)關(guān)注如何有效利用長(cháng)尾數據來(lái)提升視覺(jué) Transformer 的性能,并探索解決數據不平衡問(wèn)題的新方法。通過(guò)本文的研究和總結,研究團隊有望為進(jìn)一步改進(jìn)視覺(jué) Transformer 模型在長(cháng)尾數據任務(wù)中的表現提供有益的指導和啟示。這將為解決現實(shí)世界中存在的數據不平衡問(wèn)題提供新的思路和解決方案。文章通過(guò)一系列實(shí)驗發(fā)現,在有監督范式下,視覺(jué) Transformer 在處理不平衡數據時(shí)會(huì )出現嚴重的性能衰退,而使用平衡分布的標注數據訓練出的視覺(jué) Transformer 呈現出明顯的性能優(yōu)勢。相比于卷積網(wǎng)絡(luò ),這一特點(diǎn)在視覺(jué) Transformer 上體現的更為明顯。另一方面,無(wú)監督的預訓練方法無(wú)需標簽分布,因此在相同的訓練數據量下,視覺(jué) Transformer 可以展現出類(lèi)似的特征提取和重建能力。基于以上觀(guān)察和發(fā)現,研究提出了一種新的學(xué)習不平衡數據的范式,旨在讓視覺(jué) Transformer 模型更好地適應長(cháng)尾數據。通過(guò)這種范式的引入,研究團隊希望能夠充分利用長(cháng)尾數據的信息,提高視覺(jué) Transformer 模型在處理不平衡標注數據時(shí)的性能和泛化能力。


02

文章貢獻


本文是第一個(gè)系統性的研究用長(cháng)尾數據訓練視覺(jué) Transformer 的工作,在此過(guò)程中,做出了以下主要貢獻:首先,本文深入分析了傳統有監督訓練方式對視覺(jué) Transformer 學(xué)習不均衡數據的限制因素,并基于此提出了雙階段訓練流程,將視覺(jué) Transformer 模型內在的歸納偏置和標簽分布的統計偏置分階段學(xué)習,以降低學(xué)習長(cháng)尾數據的難度。其中第一階段采用了流行的掩碼重建預訓練,第二階段采用了平衡的損失進(jìn)行微調監督。

圖片

其次,本文提出了平衡的二進(jìn)制交叉熵損失函數,并給出了嚴格的理論推導。平衡的二進(jìn)制交叉熵損失的形式如下:

圖片

與之前的平衡交叉熵損失相比,本文的損失函數在視覺(jué) Transformer 模型上展現出更好的性能,并且具有更快的收斂速度。研究中的理論推導為損失函數的合理性提供了嚴密的解釋?zhuān)M(jìn)一步加強了我們方法的可靠性和有效性。圖片

不同損失函數的收斂速度的比較基于以上貢獻,文章提出了一個(gè)全新的學(xué)習范式 LiVT,充分發(fā)揮視覺(jué) Transformer 模型在長(cháng)尾數據上的學(xué)習能力,顯著(zhù)提升模型在多個(gè)數據集上的性能。該方案在多個(gè)數據集上取得了遠好于視覺(jué) Transformer 基線(xiàn)的性能表現。

圖片


不同參數量下在 ImageNet-LT 上的準確性。

圖片


在 ImagNet-LT(左)和 iNaturalist18(右)數據集上的性能表現同時(shí),本文還驗證了在相同的訓練數據規模的情況下,使用ImageNet的長(cháng)尾分布子集(LT)和平衡分布子集(BAL)訓練的 ViT-B 模型展現出相近的重建能力。如 LT-Large-1600 列所示,在 ImageNet-LT 數據集中,可以通過(guò)更大的模型和 MGP epoch 獲得更好的重建結果。

圖片


03

總  結



本文提供了一種新的基于視覺(jué) Transformer 處理不平衡數據的方法 LiVT。LiVT 利用掩碼建模和平衡微調兩個(gè)階段的訓練策略,使得視覺(jué) Transformer 能夠更好地適應長(cháng)尾數據分布并學(xué)習到更通用的特征表示。該方法不僅在實(shí)驗中取得了顯著(zhù)的性能提升,而且無(wú)需額外的數據,具有實(shí)際應用的可行性。

轉自《機器之心》

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>