<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 可構建AI的「AI」誕生:幾分之一秒內,就能預測新網(wǎng)絡(luò )的參數

可構建AI的「AI」誕生:幾分之一秒內,就能預測新網(wǎng)絡(luò )的參數

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2022-02-12 來(lái)源:工程師 發(fā)布文章

來(lái)源 | 學(xué)術(shù)頭條

人工智能在很大程度上是一場(chǎng)數字游戲。當深度神經(jīng)網(wǎng)絡(luò )在 10 年前開(kāi)始超越傳統算法,是因為我們終于有了足夠的數據和處理能力來(lái)充分利用它們。

今天的神經(jīng)網(wǎng)絡(luò )更依賴(lài)于數據和算力。訓練網(wǎng)絡(luò )時(shí),需要仔細調整表征網(wǎng)絡(luò )的數百萬(wàn)甚至數十億參數值,這些參數代表人工神經(jīng)元之間連接的強度。目標是為它們找到接近理想的值,這個(gè)過(guò)程稱(chēng)為優(yōu)化。但訓練網(wǎng)絡(luò )要達到這一點(diǎn)并不容易。倫敦 DeepMind 的研究科學(xué)家 Petar Veli?kovi? 說(shuō):“訓練可能需要花費幾天、幾周甚至幾個(gè)月的時(shí)間”。

但上述這種情況可能很快就會(huì )改變。安大略省圭爾夫大學(xué)的 Boris Knyazev 和他的同事設計并訓練了一個(gè)“超網(wǎng)絡(luò )”——一種其他神經(jīng)網(wǎng)絡(luò )的“霸主”,該網(wǎng)絡(luò )可以加快訓練過(guò)程。給定一個(gè)為某些任務(wù)設計的新的、未經(jīng)訓練的深度神經(jīng)網(wǎng)絡(luò ),超網(wǎng)絡(luò )可以在幾分之一秒內預測新網(wǎng)絡(luò )的參數,理論上可以使訓練變得不必要。由于超網(wǎng)絡(luò )學(xué)習了深度神經(jīng)網(wǎng)絡(luò )設計中極其復雜的模式,因此這項工作也可能具有更深層次的理論意義。這項研究題為 Parameter Prediction for Unseen Deep Architectures。

目前,超網(wǎng)絡(luò )在某些環(huán)境中表現的出人意料地好,但仍有增長(cháng)空間。Veli?kovi? 說(shuō):“如果他們能解決相應問(wèn)題,這將對機器學(xué)習產(chǎn)生很大的影響”。

獲得“超能力”

目前,訓練和優(yōu)化深度神經(jīng)網(wǎng)絡(luò )的最佳方法是一種稱(chēng)為隨機梯度下降技術(shù)(SGD)的變體。訓練涉及在給定任務(wù)中(例如:圖像識別)最小化網(wǎng)絡(luò )誤差。SGD 算法通過(guò)大量標記數據來(lái)調整網(wǎng)絡(luò )參數,并減少誤差或損失。梯度下降是損失函數從高值向下降到某個(gè)最小值的迭代過(guò)程,它代表了足夠好的(有時(shí)甚至時(shí)最好的)參數值。

但是這種技術(shù)只有在網(wǎng)絡(luò )需要優(yōu)化時(shí)才有效。為了構建最初的神經(jīng)網(wǎng)絡(luò )(一般由從輸入到輸出的多層人工神經(jīng)元組成),工程師必須依靠直覺(jué)和經(jīng)驗法則。這些架構在神經(jīng)元層數、每層神經(jīng)元數等方面可能有所不同。

微信圖片_20220212154301.jpg

圖1 梯度下降算法用來(lái)降低網(wǎng)絡(luò )的“損失函數”,其中較高的值表示較大的損失。該算法試圖找到全局最小值以最小化損失。

理論上,一個(gè)人可以從很多架構開(kāi)始,然后優(yōu)化每個(gè)架構并選擇最好的。但現任 Google Brain 的訪(fǎng)問(wèn)研究員 MengYe Ren 說(shuō):“訓練需要花費相當多的時(shí)間,訓練和測試每個(gè)候選網(wǎng)絡(luò )架構是不可能的。它不能很好地擴展,尤其是考慮到數百萬(wàn)種可能的設計?!?/p>

所以在 2018 年,Ren 和他在多倫多大學(xué)的前同事 Chris Zhang 及他們的顧問(wèn) Raquel Urtasun 嘗試了一種不同的方法。他們設計了所謂的圖超網(wǎng)絡(luò )(Graph Hypernetwork: GHN),可以在給定一組候選架構的情況下,找到解決某些任務(wù)的最佳深度神經(jīng)網(wǎng)絡(luò )架構。

該名稱(chēng)概述了他們的方法?!皥D”指的是深度神經(jīng)網(wǎng)絡(luò )的架構,可以被認為是一個(gè)數學(xué)圖——由線(xiàn)或邊連接的點(diǎn)或節點(diǎn)的集合。這里的節點(diǎn)代表計算單元(通常是神經(jīng)網(wǎng)絡(luò )的整個(gè)層),邊代表這些單元互連的方式。

圖超網(wǎng)絡(luò )的工作原理是首先對于任何需要優(yōu)化的架構(稱(chēng)其為候選架構),它盡最大努力預測候選者的理想參數。然后將實(shí)際神經(jīng)網(wǎng)絡(luò )的參數設置為預測值,并在給定任務(wù)上對其進(jìn)行測試。Ren 的團隊表明,這種方法可用于對候選架構進(jìn)行排名,并選擇表現最佳的架構。

當 Knyazev 和他的同事看到圖超網(wǎng)絡(luò )的想法時(shí),他們意識到可以在此基礎上進(jìn)行構建。在他們的新論文中,該團隊展示了如何使用 GHN,不僅從一組樣本中找到最佳架構,還可以預測最佳網(wǎng)絡(luò )的參數,使其在絕對意義上表現良好。在還沒(méi)有達到最好的情況下,其可以使用梯度下降進(jìn)一步訓練網(wǎng)絡(luò )。

Ren 說(shuō):“這是一篇非常扎實(shí)的論文,它包含了更多我們所做的實(shí)驗??吹綀D超網(wǎng)絡(luò )在非常努力地提升絕對性能,我們大家都很高興?!?/p>

訓練“教練”

Knyazev 和他的團隊將他們的超網(wǎng)絡(luò )命名為 GHN-2,它改進(jìn)了Ren及其同事構建的圖超網(wǎng)絡(luò )的兩個(gè)重要方面。

首先,他們依賴(lài) Ren 等人將神經(jīng)網(wǎng)絡(luò )架構描繪為圖的技術(shù)。圖中的每個(gè)節點(diǎn)都是關(guān)于執行某種特定類(lèi)型計算的神經(jīng)元子集的編碼信息。圖的邊緣描繪了信息如何從一個(gè)節點(diǎn)到另一個(gè)節點(diǎn),從輸入到輸出。

第二,他們借鑒了訓練超網(wǎng)絡(luò )預測新的候選架構的方法。這需要另外兩個(gè)神經(jīng)網(wǎng)絡(luò )。第一個(gè)啟用對原始候選圖的計算,從而更新與每個(gè)節點(diǎn)相關(guān)的信息,第二個(gè)將更新的節點(diǎn)作為輸入,并預測候選神經(jīng)網(wǎng)絡(luò )的相應計算單元的參數。這兩個(gè)網(wǎng)絡(luò )也有自己的參數,必須在超網(wǎng)絡(luò )正確預測參數值之前對其進(jìn)行優(yōu)化。

具體流程如下,首先你需要訓練數據——候選人工神經(jīng)網(wǎng)絡(luò )(Artifical Neural Network: ANN)架構的隨機樣本。對于示例中的每一個(gè)架構,先從一個(gè)圖開(kāi)始,之后使用圖超神經(jīng)網(wǎng)絡(luò )預測參數,并使用預測的參數初始化候選 ANN。使用 ANN 來(lái)執行一些特定的任務(wù),如圖像識別。通過(guò)計算 ANN 的損失函數,來(lái)更新做出預測的超網(wǎng)絡(luò )參數,而不是更新 ANN 的參數做出預測。這樣可以使超網(wǎng)絡(luò )在每一次迭代后做的更好;然后,通過(guò)迭代標記過(guò)的訓練數據集中的每一個(gè)圖像和架構的隨機樣本中的每一個(gè) ANN,來(lái)減少每一步的損失,直到達到最優(yōu)。一般這個(gè)情況下,你就可以得到一個(gè)訓練有素的超網(wǎng)絡(luò )。

因為 Ren 的團隊沒(méi)有公開(kāi)源代碼,所以 Knyazev 的團隊采納了這些想法,從頭開(kāi)始編寫(xiě)了自己的軟件,并對其進(jìn)行了改進(jìn)。首先,他們確定了 15 種類(lèi)型的節點(diǎn),通過(guò)混合、匹配可以構建任何現代深度神經(jīng)網(wǎng)絡(luò )。他們還在提高預測的準確性上取得了一些進(jìn)步。

最重要的是,為了確保 GHN-2 學(xué)會(huì )預測各種目標神經(jīng)網(wǎng)絡(luò )架構的參數,Knyazev 及其同事創(chuàng )建了一個(gè)包含 100 萬(wàn)個(gè)可能架構的獨特數據集。Knyazev 說(shuō):“為了訓練我們的模型,我們創(chuàng )建了盡可能多樣化的隨機架構”。

因此,GHN-2 的預測能力更有可能被很好地推廣到看不見(jiàn)的目標架構。谷歌研究院大腦團隊的研究科學(xué)家 Thomas Kipf 說(shuō):“例如,它們可以解釋人們使用的所有典型的最先進(jìn)的架構,這是一個(gè)重大貢獻?!?/p>

微信圖片_20220212154338.jpg

圖2 圖神經(jīng)網(wǎng)絡(luò )

圖片令人印象深刻的結果

當然,真正的考驗是讓 GHN-2 發(fā)揮作用。一旦 Knyazev 和他的團隊訓練它預測給定任務(wù)的參數,例如,對特定數據集中的圖像進(jìn)行分類(lèi),他們就測試了它為任何隨機候選架構預測參數的能力。這個(gè)新的候選者可能具有與訓練數據集中的百萬(wàn)架構相似的屬性,或者可能不同——有點(diǎn)離群值。在前一種情況下,目標架構被認為是在分發(fā)中;在后者中,它已無(wú)法分發(fā)。深度神經(jīng)網(wǎng)絡(luò )在對后者進(jìn)行預測時(shí)經(jīng)常會(huì )失敗,因此在此類(lèi)數據上測試 GHN-2 非常重要。

借助經(jīng)過(guò)全面訓練的 GHN-2 模型,該團隊預測了 500 個(gè)以前看不見(jiàn)的隨機目標網(wǎng)絡(luò )架構的參數。然后將這 500 個(gè)網(wǎng)絡(luò )(其參數設置為預測值)與使用隨機梯度下降訓練的相同網(wǎng)絡(luò )進(jìn)行對比。盡管有些結果更加復雜,但新的超網(wǎng)絡(luò )通??梢缘钟鶖登Т?SGD 迭代,有時(shí)甚至做得更好。

微信圖片_20220212154359.jpg

圖3 安大略省圭爾夫大學(xué)的 Boris Knyazev ,幫助建立了一個(gè)超網(wǎng)絡(luò ),旨在預測未經(jīng)訓練的神經(jīng)網(wǎng)絡(luò )的參數。

對于圖像數據集 CIFAR-10 ,GHN-2 在分布式架構上的平均準確率為 66.9%,而使用接近 2,500 次 SGD 迭代訓練的網(wǎng)絡(luò ),所達到的平均準確率為 69.2%。對于非分布式架構,GHN-2 的表現出人意料地好,達到了大約 60% 的準確率。特別是,它對一種特定知名深度神經(jīng)網(wǎng)絡(luò )架構 ResNet-50 實(shí)現了 58.6% 的可觀(guān)準確率。Knyazev 在該領(lǐng)域的旗艦會(huì )議 NeurIPS 2021 上說(shuō):“鑒于 ResNet-50 比我們的平均訓練架構大大約 20 倍,所以 ResNet-50 的泛化效果出奇地好,”。

GHN-2 在 ImageNet 上表現不佳,ImageNet 是一個(gè)相當大的數據集。平均而言,它的準確率只有 27.2% 左右。盡管如此,這與使用 5,000 步 SGD 訓練的相同網(wǎng)絡(luò )的 25.6% 的平均準確度相比也是有利的。 (當然,如果你繼續使用 SGD,你最終可以以相當大的成本獲得 95% 的準確率。)最關(guān)鍵的是,GHN-2 在不到一秒的時(shí)間內做出了 ImageNet 預測,而使用 SGD 在圖形處理單元上預測參數,來(lái)獲得相同的性能,平均花費時(shí)間比 GHN-2 要長(cháng) 10,000 倍。

Veli?kovi? 說(shuō):“結果絕對令人印象深刻,他們基本上大大降低了能源成本?!?/p>

當 GHN-2 從架構樣本中為一項任務(wù)找到最佳神經(jīng)網(wǎng)絡(luò ),而該最佳選擇還不夠好時(shí),至少模型已經(jīng)得到了部分訓練并且可以進(jìn)一步優(yōu)化。與其在使用隨機參數初始化的網(wǎng)絡(luò )上釋放 SGD,不如使用 GHN-2 的預測作為起點(diǎn)。Knyazev 說(shuō):“基本上我們模仿的是預訓練”。

超越 GHN-2

盡管取得了這些成功,Knyazev 認為機器學(xué)習社區一開(kāi)始會(huì )抵制使用圖超網(wǎng)絡(luò )。他將其比作 2012 年之前深度神經(jīng)網(wǎng)絡(luò )面臨的阻力。當時(shí),機器學(xué)習從業(yè)者更喜歡手工設計的算法,而不是神秘的深度網(wǎng)絡(luò )。但是,當對大量數據進(jìn)行訓練的大型深度網(wǎng)絡(luò )開(kāi)始超越傳統算法時(shí),這種情況發(fā)生了變化。Knyazev :“這可以走同樣的路?!?/p>

與此同時(shí),Knyazev 看到了很多改進(jìn)的機會(huì )。例如,GHN-2 只能被訓練來(lái)預測參數以解決給定的任務(wù),例如對 CIFAR-10 或 ImageNet 圖像進(jìn)行分類(lèi),但不能同時(shí)進(jìn)行。在未來(lái),他設想在更多樣化的架構和不同類(lèi)型的任務(wù)(例如圖像識別、語(yǔ)音識別和自然語(yǔ)言處理)上訓練圖超網(wǎng)絡(luò )。然后根據目標架構和手頭的特定任務(wù)來(lái)進(jìn)行預測。

如果這些超網(wǎng)絡(luò )真的成功,新的深度神經(jīng)網(wǎng)絡(luò )的設計和開(kāi)發(fā),將不再局限于財力雄厚和能夠訪(fǎng)問(wèn)大數據的公司。任何人都可以參與其中。Knyazev 非常清楚這種“使深度學(xué)習民主化”的潛力,稱(chēng)其為長(cháng)期愿景。

然而,如果像 GHN-2 這樣的超網(wǎng)絡(luò )真的成為優(yōu)化神經(jīng)網(wǎng)絡(luò )的標準方法,Veli?kovi? 強調了一個(gè)潛在的大問(wèn)題。他說(shuō):“你有一個(gè)神經(jīng)網(wǎng)絡(luò )——本質(zhì)上是一個(gè)黑盒子,再使用圖超網(wǎng)絡(luò )去預測另一個(gè)神經(jīng)網(wǎng)絡(luò )的參數。當它出錯時(shí),你無(wú)法解釋[它]?!?/p>

當然,在很大程度上這已經(jīng)是神經(jīng)網(wǎng)絡(luò )的特點(diǎn)了。Veli?kovi? 說(shuō):“我不會(huì )稱(chēng)之為弱點(diǎn),而稱(chēng)之為警告信號?!?/p>

然而,Kipf 看到了一線(xiàn)希望?!耙恍┢渌氖挛镒屛覍Υ烁械阶钆d奮,即 GHN-2 展示了圖神經(jīng)網(wǎng)絡(luò )在復雜數據中尋找模式的能力?!?/p>

通常,深度神經(jīng)網(wǎng)絡(luò )會(huì )在圖像、文本或音頻信號中找到模式,這些是相當結構化的信息類(lèi)型。而 GHN-2 在完全隨機的神經(jīng)網(wǎng)絡(luò )架構圖中找到模式。這是非常復雜的數據。

然而,GHN-2 可以泛化——這意味著(zhù)它可以對看不見(jiàn)的、甚至分布式網(wǎng)絡(luò )架構以外的參數做出合理的預測。Kipf 說(shuō):“這項工作向我們展示了許多模式在不同的架構中以某種方式相似,并且模型可以學(xué)習如何將知識從一種架構轉移到不同的架構,這可能會(huì )激發(fā)一些神經(jīng)網(wǎng)絡(luò )的新理論?!?/p>

如果是這樣的話(huà),它可能會(huì )讓我們對這些黑匣子產(chǎn)生新的、更深入的理解。

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>