零障礙合并兩個(gè)模型,大型ResNet模型線(xiàn)性連接只需幾秒,神經(jīng)網(wǎng)絡(luò )啟發(fā)性新研究
這篇論文探討了置換對稱(chēng)性(permutation symmetry)如何在 SGD 解決方案的線(xiàn)性模式連接中發(fā)揮重要作用。
深度學(xué)習能夠取得如此成就,得益于其能夠相對輕松地解決大規模非凸優(yōu)化問(wèn)題。盡管非凸優(yōu)化是 NP 困難的,但一些簡(jiǎn)單的算法,通常是隨機梯度下降(SGD)的變體,它們在實(shí)際擬合大型神經(jīng)網(wǎng)絡(luò )時(shí)表現出驚人的有效性。
本文中,來(lái)自華盛頓大學(xué)的多位學(xué)者撰文《 Git Re-Basin: Merging Models modulo Permutation Symmetries 》,他們研究了在深度學(xué)習中,SGD 算法在高維非凸優(yōu)化問(wèn)題上的不合理有效性。他們受到三個(gè)問(wèn)題的啟發(fā):
1. 為什么 SGD 在高維非凸深度學(xué)習損失 landscapes 的優(yōu)化中表現良好,而在其他非凸優(yōu)化設置中,如 policy 學(xué)習、軌跡優(yōu)化和推薦系統的穩健性明顯下降 ?
2. 局部極小值在哪里?在初始化權值和最終訓練權值之間進(jìn)行線(xiàn)性插值時(shí),為什么損失會(huì )平滑、單調地減???
3. 兩個(gè)獨立訓練的模型,它們具有不同的隨機初始化和數據批處理順序,為何會(huì )實(shí)現幾乎相同的性能?此外,為什么它們的訓練損失曲線(xiàn)看起來(lái)一樣
論文地址:https://arxiv.org/pdf/2209.04836.pdf
本文認為:在模型訓練中存在一些不變性,這樣一來(lái)才會(huì )有不同的訓練表現出幾乎相同的性能。
為什么會(huì )這樣呢?2019 年,Brea 等人注意到神經(jīng)網(wǎng)絡(luò )中的隱藏單元具有置換對稱(chēng)性。簡(jiǎn)單的說(shuō)就是:我們可以交換網(wǎng)絡(luò )中隱藏層的任意兩個(gè)單元,而網(wǎng)絡(luò )功能將保持不變。2021 年 Entezari 等人推測,這些置換對稱(chēng)可能允許我們在權值空間中線(xiàn)性連接點(diǎn),而不損害損失。
下面我們以論文作者之一的舉例來(lái)說(shuō)明文章主旨,這樣大家會(huì )更清楚。
假如說(shuō)你訓練了一個(gè) A 模型,你的朋友訓練了一個(gè) B 模型,這兩個(gè)模型訓練數據可能不同。沒(méi)關(guān)系,使用本文提出的 Git Re-Basin,你能在權值空間合并這兩個(gè)模型 A+B,而不會(huì )損害損失。
論文作者表示,Git Re-Basin 可適用于任何神經(jīng)網(wǎng)絡(luò )(NN),他們首次演示了在兩個(gè)獨立訓練(沒(méi)有預先訓練)的模型(ResNets)之間,可以零障礙的線(xiàn)性連通。
他們發(fā)現,合并能力是 SGD 訓練的一個(gè)屬性,在初始化時(shí)合并是不能工作的,但是會(huì )發(fā)生相變,因此隨著(zhù)時(shí)間的推移合并將成為可能。
他們還發(fā)現,模型寬度與可合并性密切相關(guān),即越寬越好。
此外,并非所有架構都能合并:VGG 似乎比 ResNets 更難合并。
這種合并方法還有其他優(yōu)點(diǎn),你可以在不相交和有偏差的數據集上訓練模型,然后在權值空間中將它們合并在一起。例如,你有一些數據在美國,一些在歐盟。由于某些原因,不能混合數據。你可以先訓練單獨的模型,然后合并權重,最后泛化到合并的數據集。
因此,在不需要預訓練或微調的情況下可以混合訓練過(guò)的模型。作者表示自己很想知道線(xiàn)性模式連接和模型修補的未來(lái)發(fā)展方向,可能會(huì )應用到聯(lián)邦學(xué)習、分布式訓練以及深度學(xué)習優(yōu)化等領(lǐng)域。
最后還提到,章節 3.2 中的權重匹配算法只需 10 秒左右即可運行,所以節省了大量時(shí)間。論文第 3 章也介紹了 A 模型與 B 模型單元匹配的三種方法,對匹配算法還不清楚的小伙伴,可以查看原論文。
網(wǎng)友評論及作者解疑
這篇論文在推特上引發(fā)了熱議,PyTorch 聯(lián)合創(chuàng )始人 Soumith Chintala 表示如果這項研究可以遷移到更大的設置,則它可以實(shí)現的方向會(huì )更棒。合并兩個(gè)模型(包括權重)可以擴展 ML 模型開(kāi)發(fā),并可能在開(kāi)源的共同開(kāi)發(fā)模型中發(fā)揮巨大作用。
另有人認為如果置換不變性能夠這樣高效地捕捉大部分等價(jià)性,它將為神經(jīng)網(wǎng)絡(luò )的理論研究提供啟發(fā)。
論文一作、華盛頓大學(xué)博士 Samuel Ainsworth 也解答了網(wǎng)友提出的一些問(wèn)題。
首先有人問(wèn),「論文中是否有關(guān)于在訓練中針對獨特 basin 的任何提示?如果有一種方法可以做到對置換進(jìn)行抽象,那么訓練速度可能會(huì )更快?!?/span>
Ainsworth 回復稱(chēng),這點(diǎn)自己沒(méi)有想到。他真的希望能夠以某種方式實(shí)現更快地訓練,但目前為止已被證明非常困難。問(wèn)題在于 SGD 本質(zhì)上是一種局部搜索,因此利用高階幾何并不是那么容易。也許分布式訓練是一種可行的方法。
還有人問(wèn)是否適用于 RNN 和 Transformers?Ainsworth 表示原則上適用,但他還沒(méi)有對此進(jìn)行實(shí)驗。時(shí)間會(huì )證明一切。
最后有人提出,「這看起來(lái)對分布式訓練『成真』非常重要?難道 DDPM(去噪擴散概率模型)不使用 ResNet 殘差塊嗎?」
Ainsworth 回復稱(chēng),雖然他自己對 DDPM 不是很熟悉,但直言不諱表示將它用于分布式訓練將非常令人興奮。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。