<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 兼具one-shot與傳統NAS優(yōu)點(diǎn),Few-shot NAS入選ICML 2021

兼具one-shot與傳統NAS優(yōu)點(diǎn),Few-shot NAS入選ICML 2021

發(fā)布人:機器之心 時(shí)間:2021-07-10 來(lái)源:工程師 發(fā)布文章

7月12日,機器之心最新一期線(xiàn)上分享邀請到論文作者帶來(lái)詳細解讀,詳情見(jiàn)文末。

神經(jīng)網(wǎng)絡(luò )搜索(Neuarl Architecture Search)是近年來(lái)興起的熱門(mén)方向。在這次 ICML 的文章中,我們提出了 Few-shot NAS, 通過(guò)分割搜索空間,對分割后的子空間獨立建立了一個(gè)子超網(wǎng)絡(luò )(sub-supernet)來(lái)預測網(wǎng)絡(luò )性能。通過(guò)建立 one-shot NAS 和傳統挨個(gè)訓練 NAS 的聯(lián)系,few-shot NAS 巧妙繼承了兩種方法的優(yōu)點(diǎn),兼有 one-shot NAS 的快速和傳統 NAS 的準確網(wǎng)絡(luò )性能評估。大量實(shí)驗表明 few-shot NAS 是一個(gè)簡(jiǎn)單易行的方法,在不同任務(wù)上和數據集上能提升當下幾乎所有的 NAS 方法,包括 ImageNet 及 CIFAR-10 的分類(lèi)任務(wù)和 GAN 這樣的生成任務(wù)等。該文章被 ICML-2021 接收為 long talk。

論文鏈接:https://arxiv.org/pdf/2006.06863.pdf

源代碼鏈接:https://github.com/facebookresearch/LaMCTS

Few-shot NAS是如何被提出的?

神經(jīng)網(wǎng)絡(luò )結構搜索在這些年收到大家廣泛的關(guān)注,該項技術(shù)在很多視覺(jué)和自然語(yǔ)言處理的領(lǐng)域呈現了不錯的結果。各個(gè)大廠(chǎng)在這項技術(shù)上也紛紛跟進(jìn),比如 Google 在近幾年的年度科研總結里,NAS 都占了一席之地。之前我所在的 Facebook 也有很多組在做 NAS 研究,包括現在我最近全職加入的 NVIDIA,也開(kāi)始了 NAS 研究。這都代表大家對 NAS 這個(gè)技術(shù)的認可,并且認為這是一個(gè)對生產(chǎn)有實(shí)際幫助的工具。

截止到今天,NAS方法大概可以分為兩個(gè)陣營(yíng),其一是挨個(gè)訓練的傳統NAS,其二是利用 supernet 的one-shot NAS。挨個(gè)訓練就比較好理解,搜索算法提一個(gè)新網(wǎng)絡(luò ),我們把這個(gè)網(wǎng)絡(luò )在訓練集上從頭訓練,并在驗證集上測量一個(gè)精度。這個(gè)過(guò)程優(yōu)缺點(diǎn)很明顯,優(yōu)點(diǎn)是從頭訓練會(huì )非常準確的評判網(wǎng)絡(luò )的好壞,但缺點(diǎn)就是計算量非常的大,只有大公司里那些能調動(dòng)好幾百個(gè) GPU 的組能玩的起。為了避免從頭訓練每一個(gè)新網(wǎng)絡(luò ),one-shot NAS利用了一個(gè)過(guò)度參數化(over-parameterization)的權重共享超網(wǎng)絡(luò )(supernet)。我們只需要訓練一遍這個(gè)超網(wǎng)絡(luò )y,那么搜索空間里任何一個(gè)單獨的目標網(wǎng)絡(luò )x,只要把超網(wǎng)絡(luò ) y 的參數轉移過(guò)來(lái),然后在驗證集上做一輪推斷,就可以得到準確率的預測。這樣就巧妙的避免了傳統 NAS 里挨個(gè)訓練的計算瓶頸,相當于一個(gè)可以快速求值的值函數。

另一方面,天下沒(méi)有免費的午餐。supernet 雖然減少了計算量,但同時(shí)也引入了近似誤差。比如用超網(wǎng)絡(luò )所預測出的網(wǎng)絡(luò )性能排序,其實(shí)是非常不準確的,詳見(jiàn)這篇文章[1]。這里我們假設讀者對 one-shot NAS 和 supernet 有個(gè)基本的理解,不太清楚的讀者,可以推薦看我們之前的文章[2]。

提升 supernet 的預測性能是最近 NAS 研究的一個(gè)熱點(diǎn)。我們 few-shot NAS 本質(zhì)也是一個(gè)提升 supernet 的方法,核心思想源于一個(gè)對 one-shot NAS 和傳統 NAS 的一個(gè)觀(guān)察,如下圖:

1.png

圖1: 拆分supernet來(lái)建立one-shot NAS和傳統NAS的聯(lián)系

圖中邊 a 是由綠色和紅色的兩個(gè)算子(operators)組成的一個(gè)復合邊(藍色粗剪頭)。如果我們拆分 supernet 上的復合邊 a ,既把2個(gè)紅色和綠色的并行算子單獨拆開(kāi),那么我們得到兩個(gè) sub-supernets,注意此時(shí)邊 a 不再是復合邊了。如果我們迭代這個(gè)操作到 supernet 的每一個(gè)復合邊上,最終我們可以把一個(gè) supernet 拆成這個(gè)搜索空間里的一個(gè)個(gè)單獨的網(wǎng)絡(luò )。這樣我們就建立了 supernet 和傳統 NAS 的聯(lián)系。傳統 NAS 由于每個(gè)網(wǎng)絡(luò )都是從頭訓練,沒(méi)有近似誤差,所以能夠準確的排序搜索空間里網(wǎng)絡(luò )性能的好壞,但是慢。one-shot NAS 雖然快,但是 supernet 引入了很大的近似誤差。從上圖中如果把拆分的過(guò)程構建一個(gè)樹(shù),那么這個(gè)樹(shù)的根節點(diǎn)就是 supernet,而葉子就是傳統 NAS 里的一個(gè)個(gè)的具體網(wǎng)絡(luò )。

這里我們自然就想到一個(gè)問(wèn)題,如果在中間結點(diǎn)上構造 sub-supernet,那么與根結點(diǎn)相比,它對搜索空間的覆蓋范圍變小了,預測精度就應該上升。這樣的話(huà),它會(huì )不會(huì )同時(shí)兼備兩邊的優(yōu)點(diǎn)?如下圖。

2.png

圖2: few-shot NAS 是傳統NAS和one-shot NAS的一個(gè)折中,因此同時(shí)擁有兩個(gè)方法的優(yōu)點(diǎn)。

為了驗證這樣一個(gè)想法,我們做了一組單因子實(shí)驗。首先我們構建了一個(gè)小的搜索空間,這個(gè)搜索空間里有1296個(gè)網(wǎng)絡(luò )。我們先把這1296個(gè)網(wǎng)絡(luò )單獨訓練一遍得到準確的性能數值,然后對它們進(jìn)行性能排序,作為性能預測的基準。然后我們訓練了一個(gè) supernet,去預測這1296個(gè)網(wǎng)絡(luò )的性能排序。我們按照圖1的方法,把 supernet 拆一個(gè),兩個(gè),三個(gè)復合邊,分別得到6,36,216個(gè) sub-supernets (此處為6的等比數列是因為一個(gè)復合邊有6個(gè)operators)。然后我們訓練這6,36,216個(gè)sub-supernets,用6,26,216個(gè) sub-supernets 分別去預測搜索空間里1296個(gè)網(wǎng)絡(luò )的性能排序。我們得到了下圖,

3.png

圖3: few-shot NAS的概念證明。拆分supernet能很好的提升性能排序。

這里的 rank correlation 就是量化性能排序的指標,并且1為最好。從上圖可以看出,當拆分的 sub-supernets 越多,結果越接近傳統 NAS,并且只需要不太多的 sub-supernets,排序性能就有較大的提高。這就是本文最核心的 insight,也是本文被命名為 Few-shot NAS 的原因。

Few-shot NAS具體是怎樣工作的?

Few-shot NAS 的核心方法非常簡(jiǎn)單。一言以蔽之,就是選擇不同的復合邊,用上文的方法去分割他們,生成多個(gè) sub-supernets, 然后通過(guò)這些 sub-supernets 來(lái)對搜索出來(lái)的網(wǎng)絡(luò )架構進(jìn)行性能預測。

一個(gè) supernet 往往有多個(gè)復合邊,那么該如何決定選擇哪條復合邊來(lái)進(jìn)行拆分呢?對此我們在 NASBench-201 上做了一組實(shí)驗。NASBench201 的搜索空間對應的 supernet 有6條復合邊,每條復合邊上有5個(gè)不同的 operators。因此,如果我們同時(shí)拆分1,2,3條復合邊的話(huà),會(huì )生成(5),(25),(125)個(gè) sub-supernets。因為一共有6條復合邊,所以從 supernet 中選擇其中的1,2,3條邊來(lái)進(jìn)行拆分一共有, 種不同的選擇方法。我們對這6,15,20種不同的拆分方法都做了一遍,然后對搜索空間的所有15625個(gè)網(wǎng)絡(luò )用 sub-supernets 進(jìn)行了性能預測排序(rank correlation by Kendall’s Tau),結果如下表所示:

4.png

我們發(fā)現,拆分的 sub-supernets 越多,性能預測排序就越準確。然而,對于 supernet 上同樣數目的復合邊拆分,不同復合邊的選擇組合對最終的性能預測排序影響不大。因此,在 supernet 拆分的過(guò)程中,我們只需考慮我們最終要拆分幾條復合邊,而無(wú)需過(guò)多關(guān)注哪幾條復合邊需要被拆分。

把 supernet 拆分成更多的 sub-supernets 會(huì )更好的進(jìn)行網(wǎng)絡(luò )架構的性能預測,從而讓網(wǎng)絡(luò )架構搜索更有效率。然而,過(guò)多的 sub-supernets 同樣會(huì )出現訓練時(shí)間過(guò)長(cháng)的問(wèn)題,舉個(gè)例子,假如我們拆分了36個(gè) sub-supernets,那總訓練時(shí)長(cháng)大約會(huì )是僅用1個(gè) supernet 的 one-shot NAS 的36倍,這個(gè)效率是很難被接受的。我們發(fā)現,每個(gè) sub-supernets 的架構和 supernet 其實(shí)非常接近,僅僅是在 supernet 里被拆分復合邊上少了一些 operators。因此,我們想出了用權重遷移的方法來(lái)加速 sub-supernets 的訓練。具體實(shí)現起來(lái)也十分容易,我們先把 supernet 訓練至收斂,然后直接把與 sub-supernets 重合的 operators 的權重轉移過(guò)去。這樣,與從頭訓練每個(gè) sub-supernet 相比,權重遷移后的 sub-supernet 僅僅需要很少的訓練時(shí)間就能夠收斂。所以,在引入權重遷移技術(shù)之后,few-shot NAS 的效率會(huì )被大大提升。

實(shí)驗

首先我們把多個(gè) sub-supernets 的思想用 NASBench-201 來(lái)詳細測試了一遍。這里我們拆分一個(gè) supernet 為5個(gè) sub-supernets,并結合在幾個(gè) one-shot 和搜索的方法上。具體實(shí)驗結果如下,

5.png

圖4: 通過(guò)使用5個(gè)sub-supernets,few-shot NAS (黃色)的準確率一直比one-shot方法高。

6.png

圖5: 通過(guò)使用5個(gè)sub-supernets,對比于one-shot NAS (藍色),few-shot NAS有效的減少了supernet的近似誤差,所以few shot NAS的搜索結果(黃色)大幅度接近傳統NAS(紅色)。

同時(shí)我們也把 few-shot NAS 應用在現有的 NAS 系統上。我們做的更改很簡(jiǎn)單,就是把網(wǎng)上放出來(lái)的開(kāi)源代碼然后從 one-shot NAS 改成 few-shot NAS,然后并且使用同樣的超參,重新跑一遍結果進(jìn)行對比。這里是 CIFAR-10 上的結果對比:

7.png

圖6: 我們應用few-shot NAS與現有的NAS方法結合,在CIFAR-10上利用NASNet的搜索域進(jìn)行搜索。實(shí)驗結果表明:1) 相比于各種one-shot NAS方法,few-shot NAS在同樣的訓練條件下,提升了最終搜出網(wǎng)絡(luò )的準確度。在此,我們只把few-shot NAS結合在DARTS, REA以及LaNAS的算法上,并通過(guò)分割原先的單個(gè)supernet成為7個(gè)sub-supernets來(lái)進(jìn)行搜索。2)在結合了多個(gè)sub-supernets之后,few-shot DARTs利用cutout和auto-augmentation數據增強技術(shù)在CIFAR-10數據集上達到SoTA 98.72%的top-1準確率。在沒(méi)有利用auto-augmentation技術(shù)的情況下,few-shot DARTS-Small的top-1準確度仍然超過(guò)在同等參數下的其他模型。

接下來(lái)是imagenet的結果:

8.png

圖7: 我們應用few-shot NAS與現有的NAS方法結合,在ImageNet上利用EfficientNet的搜索域進(jìn)行搜索。與圖6中CIFAR-10的表格一致, few-shot OFA與few-shot ProxylessNAS在相同的訓練條件下,其搜索出的最終的網(wǎng)絡(luò )架構也同樣超過(guò)了它們原本的one-shot版本。與CIFAR10中不同之處是我們在ImageNet實(shí)驗下把supernet拆分為5個(gè)sub-supernets。值得一提的是,few-shot OFA Large在600M左右FLOPs的模型中達到了SoTA的80.5%的top-1準確率。

以及在A(yíng)uto-GAN上的對比:

9.png

圖8: 我們把few-shot NAS與AutoGAN結合,基于它們公布的代碼,我們用3個(gè)sub-supernets來(lái)代替原本的單個(gè)supernet。利用few-shot AutoGAN搜索出的架構比原始one-shot版本的AutoGAN所找出的架構提升了最高20%的性能。

從這些結果可以看出,在把這些開(kāi)源項目改成 few-shot NAS 后都能觀(guān)測到一定的提升。

研究團隊與嘉賓介紹

該工作是由趙一陽(yáng)、王林楠與其 Facebook 的 mentor 田淵棟以及其博士生導師 Rodrigo Fonseca 和趙一陽(yáng)的導師郭甜共同完成的。

趙一陽(yáng),現為伍斯特理工學(xué)院(Worcester Polytechnic Institute)計算機系博士二年級學(xué)生,研究方向是自動(dòng)化機器學(xué)習(Auto-ML),曾在多個(gè)人工智能與計算機系統頂會(huì )發(fā)表過(guò)文章。目前在字節跳動(dòng)的 Infrastructure Lab 進(jìn)行研究性實(shí)習。

王林楠博士,現為 NVIDIA 高級深度學(xué)習工程師,其主要研究方向是神經(jīng)網(wǎng)絡(luò )結構搜索和超級計算。他畢業(yè)于布朗大學(xué)計算機系,師從 Rodrigo Fonseca。在布朗學(xué)習時(shí)期,他曾多次在 FAIR, MSR,和 NEC Labs 實(shí)習。從2017年起,他就一直圍繞蒙卡洛樹(shù)搜索,設計和打造一個(gè)能夠構建人工智能的人工智能體。截至今日,他的研究已發(fā)表在ICML, NeurIPS, AAAI, TPAMI, CVPR 和 PPoPP 等系統和人工智能的頂級會(huì )議和期刊上。

田淵棟博士,臉書(shū)(Facebook)人工智能研究院研究員及經(jīng)理,研究方向為深度強化學(xué)習與應用及表示學(xué)習的理論分析。圍棋開(kāi)源項目 DarkForest 及 ELF OpenGo 項目中研究及工程負責人和第一作者。2013-2014年在 Google 無(wú)人駕駛團隊任軟件工程師。2005年及08年于上海交通大學(xué)獲本碩學(xué)位,2013年于美國卡耐基梅隆大學(xué)機器人研究所獲博士學(xué)位。曾獲得2013年國際計算機視覺(jué)大會(huì )(ICCV)馬爾獎提名(Marr Prize Honorable Mentions)

[1] Yu, K., Sciuto, C., Jaggi, M., Musat, C., and Salzmann, M. Evaluating the search phase of neural architecture search. arXiv preprint arXiv:1902.08142, 2019b.

[2] Wang, L., Xie, S., Li, T., Fonseca, R., and Tian, Y. Sample-efficient neural architecture search by learning action space. CoRR, abs/1906.06832, 2019a. URL http://arxiv.org/abs/1906.06832.

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>