【伯克利博士論文】高效、可擴展的視覺(jué)識別神經(jīng)體系結構
來(lái)源:專(zhuān)知
ConvNets和其他神經(jīng)體系結構在計算機視覺(jué)方面的成功應用是過(guò)去十年人工智能革命的核心。對于可擴展視覺(jué)架構的強烈需求是既小又大。小型模型代表了對效率的需求,因為視覺(jué)識別系統通常部署在邊緣設備上;大型模型強調了對可擴展性的追求——利用日益豐富的計算和數據實(shí)現更高精度的能力。這兩個(gè)方向的研究都是卓有成效的,產(chǎn)生了許多有用的設計原則,對更多性能模型的追求從未停止。同時(shí),文獻中非??斓陌l(fā)展速度有時(shí)會(huì )掩蓋某些方法取得良好結果的主要機制。在本論文中,我們將從兩個(gè)方面展開(kāi)研究:(1)開(kāi)發(fā)高效靈活的ConvNet模型推理直觀(guān)算法;(2)研究基線(xiàn)方法,揭示流行可擴展方法成功背后的原因。首先,我們將介紹我們對第一個(gè)隨時(shí)密集預測算法之一的工作。然后,我們將通過(guò)將模型修剪算法與一個(gè)極其簡(jiǎn)單的基線(xiàn)進(jìn)行比較來(lái)檢驗它們的有效性,并論證它們的真正價(jià)值可能在于學(xué)習架構。最后,通過(guò)采用《Transformers》中的設計技術(shù)對傳統的ConvNet進(jìn)行現代化改造,我們提出了關(guān)于自注意力是否導致了Transformer最近出色的視覺(jué)擴展性的問(wèn)題。
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-205.html
深度學(xué)習的基本原理[103]可以追溯到幾十年前,20世紀80年代提出了基于梯度的反向傳播學(xué)習算法[151],而ConvNets從早期就被應用于手寫(xiě)數字識別等計算機視覺(jué)任務(wù)[105]。然而,深度學(xué)習的真正威力直到2012年才被揭示出來(lái),那年AlexNet[99]贏(yíng)得了ImageNet大規模圖像分類(lèi)挑戰賽[34]。數據可用性的提高[34,110]、計算技術(shù)的進(jìn)步[124,134]和改進(jìn)的算法[64,181,95]是深度學(xué)習在各個(gè)應用領(lǐng)域持續成功的三大支柱[93,159]。隨著(zhù)最近大型模型的興起,這一領(lǐng)域的快速發(fā)展還沒(méi)有顯示出放緩的跡象[13,144]。
深度學(xué)習不僅對我們的日常生活產(chǎn)生了顯著(zhù)的影響,還改變了機器學(xué)習從業(yè)者和研究人員的工作流程——社區已經(jīng)從使用手工制作的淺層模型特征[123,32](如SVM[27]),轉向使用多層深度神經(jīng)網(wǎng)絡(luò )自動(dòng)提取特征表示。手工制作的特性通常是高度特定于任務(wù)的,而且不能一般化,設計它們的過(guò)程通常很乏味。這種轉變極大地解放了研究人員的雙手和思想,允許他們更多地專(zhuān)注于建模方面。
自動(dòng)表示學(xué)習的前景令人鼓舞,但實(shí)際情況并非如此光明。在實(shí)踐中,網(wǎng)絡(luò )結構對學(xué)習到的表征的質(zhì)量有很大的影響。當網(wǎng)絡(luò )在各種下游任務(wù)上進(jìn)行微調時(shí),學(xué)習表征的質(zhì)量也會(huì )傳播到準確性。因此,設計正確的神經(jīng)網(wǎng)絡(luò )架構現在是至關(guān)重要的,因此人類(lèi)的任務(wù)是設計架構,而不是功能。在計算機視覺(jué)中,經(jīng)典的AlexNet是一個(gè)復雜的手工設計卷積神經(jīng)網(wǎng)絡(luò )的例子——層、內核大小、特征映射大小、深度、寬度和其他配置都是由人類(lèi)精心選擇和平衡的。從那時(shí)起,各種各樣的神經(jīng)網(wǎng)絡(luò )架構被提出,不僅本身作為特征提取器有用,而且帶來(lái)了新的設計原則。VGGNet[161]填充了3 × 3內核卷積的使用,是同構網(wǎng)絡(luò )設計的先驅例子。ResNet[64]引入了剩余連接,使數百層的訓練網(wǎng)絡(luò )成為可能。Transformers [181,39]采用多頭自注意力作為一種新的網(wǎng)絡(luò )內部信息交換方式,在大規模訓練中表現優(yōu)異。神經(jīng)體系結構搜索方法[2189]試圖實(shí)現神經(jīng)體系結構設計的自動(dòng)化,同時(shí)從人類(lèi)設計的網(wǎng)絡(luò )中借鑒搜索空間設計的智慧[141]。這一領(lǐng)域的不斷創(chuàng )新,加上其他訓練技術(shù),已經(jīng)將ImageNet上排名前1的圖像分類(lèi)精度從AlexNet的62.5%提高到現在的近90%。在架構設計的各種目標中,效率和可擴展是兩個(gè)重要的概念。
這兩個(gè)方向的研究進(jìn)展都是卓有成效的,許多有用的架構設計原則被后來(lái)的工作所采用。這是一段非凡的旅程,該領(lǐng)域仍在以驚人的速度發(fā)展。同時(shí),部分由于在實(shí)驗中有太多詳細的設計選擇和超參數,在性能基準上進(jìn)行系統范圍的比較是很常見(jiàn)的,研究人員可以選擇有利的配置,并為他們的方法配備額外的技術(shù)。這可能導致無(wú)法確定實(shí)證收益的來(lái)源[112]?;€(xiàn)方法有時(shí)沒(méi)有被充分地調整或調整,導致我們無(wú)法理解所提議的方法的真正有效性。在本論文中,除了提出一種新的高效架構框架外,我們還采取了批判性的視角,對那些被認為是瑣碎或過(guò)時(shí)的基線(xiàn)的方法或模型進(jìn)行了實(shí)證研究。我們發(fā)現,當提供正確的技術(shù)時(shí),它們具有驚人的競爭力。這使我們對某些新方法的潛在機制有了更深入的理解,并幫助我們更公平、更準確地評價(jià)它們的有效性。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
linux操作系統文章專(zhuān)題:linux操作系統詳解(linux不再難懂)