OVO:在線(xiàn)蒸餾一次視覺(jué)Transformer搜索
論文地址:https://arxiv.org/pdf/2212.13766.pdf
一、概要最近,Pure transformers在視覺(jué)任務(wù)方面顯示出巨大的潛力。然而,它們在中小數據集中的準確性并不令人滿(mǎn)意。盡管一些現有方法引入了CNN作為教師,通過(guò)蒸餾來(lái)指導訓練過(guò)程,但教師和學(xué)生網(wǎng)絡(luò )之間的差距將導致次優(yōu)績(jì)效。在這項工作中,研究員提出了一種新的具有在線(xiàn)蒸餾的One-shot Vision transformer搜索框架,即OVO。OVO對教師和學(xué)生網(wǎng)絡(luò )的子網(wǎng)進(jìn)行采樣,以獲得更好的蒸餾結果。得益于在線(xiàn)蒸餾,超網(wǎng)中的數千個(gè)子網(wǎng)訓練有素,無(wú)需額外的微調或再訓練。在實(shí)驗中,OVO Ti在ImageNet和CIFAR-100上分別達到73.32%和75.2%的top-1精度。
二、ViT超網(wǎng)訓練的困境
在A(yíng)utoFormer中的超網(wǎng)訓練期間,在每個(gè)訓練迭代中均勻地采樣子網(wǎng)α=(α(1)。。。α(i)。。。α(l))。采樣權重w=(w(1)。。。w(i)。。。w(l))被更新,而其余部分被凍結。然而,超網(wǎng)訓練對于ViT來(lái)說(shuō)并不穩定,每個(gè)超網(wǎng)需要很長(cháng)的訓練周期(500個(gè)周期)才能獲得其組裝子網(wǎng)的滿(mǎn)意性能。其他方法使用三明治采樣策略,對多個(gè)子網(wǎng)絡(luò )(包括最大、最小和兩個(gè)隨機選擇)進(jìn)行采樣,然后將每個(gè)小批次的梯度聚集在一起。當采用三明治采樣策略時(shí),超網(wǎng)訓練的計算成本更高。
三、超網(wǎng)在線(xiàn)蒸餾訓練
當訓練教師和學(xué)生網(wǎng)絡(luò )時(shí),研究者在[Single path one-shot neural architecture search with uniform sampling]中提出的每次迭代中更新一個(gè)隨機采樣的子網(wǎng)絡(luò )。使用GT標簽訓練來(lái)自教師超網(wǎng)絡(luò )的子網(wǎng)絡(luò ),同時(shí)使用KD訓練采樣的學(xué)生網(wǎng)絡(luò )。配備在線(xiàn)蒸餾,一次性NAS能夠以高效和有效的方式搜索Transform架構。與經(jīng)典的一次性NAS方法相比,新提出的方法有兩個(gè)優(yōu)點(diǎn)。1) 更快的收斂。來(lái)自CNN的知識提供了電感偏置,這有助于每個(gè)Transform塊比之前的獨立訓練更快地收斂。2) 更好的子網(wǎng)性能。通過(guò)在線(xiàn)蒸餾訓練的子網(wǎng)可以在中小數據集上獲得更好的性能。
四、Search Pipeline
在超網(wǎng)完成訓練后,進(jìn)行進(jìn)化搜索,以最大化分類(lèi)精度選擇子網(wǎng)絡(luò )。在進(jìn)化搜索開(kāi)始時(shí),隨機抽取N個(gè)架構作為種子。所有子網(wǎng)絡(luò )都基于從超網(wǎng)繼承的權重在驗證數據集上進(jìn)行評估。選擇前k個(gè)架構作為父代,通過(guò)交叉和變異生成下一代。對于交叉,兩個(gè)隨機選擇的父網(wǎng)絡(luò )交叉,以在每一代中產(chǎn)生一個(gè)新網(wǎng)絡(luò )。當進(jìn)行突變時(shí),父網(wǎng)絡(luò )首先以概率Pd對其深度進(jìn)行突變,然后以概率Pm對每個(gè)塊進(jìn)行突變,以產(chǎn)生新的架構。
五、實(shí)驗
將搜索到的最優(yōu)模型的性能與ImageNet上最先進(jìn)的CNN和ViT的性能進(jìn)行了比較。在ImageNet-1K上訓練OVO的超集合,并使用指定的參數大小搜索目標Transform模型。在超網(wǎng)完成訓練后,子網(wǎng)直接繼承權重,而無(wú)需額外的再訓練和其他后處理。下表中報告了性能。很明顯,OVO比其他最先進(jìn)的模型具有更高的精度。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。