<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > R-Drop：填補Dropout缺陷，簡(jiǎn)單又有效的正則方法

R-Drop：填補Dropout缺陷，簡(jiǎn)單又有效的正則方法

發(fā)布人：MSRAsia 時(shí)間：2021-07-22 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

編者按：深度神經(jīng)網(wǎng)絡(luò )是深度學(xué)習的基礎，但其在訓練模型時(shí)會(huì )出現過(guò)擬合的問(wèn)題，而簡(jiǎn)單易用的 Dropout 正則化技術(shù)可以防止這種問(wèn)題的發(fā)生。然而 Dropout 的操作在一定程度上會(huì )使得訓練后的模型成為一種多個(gè)子模型的組合約束。

基于此，微軟亞洲研究院與蘇州大學(xué)提出了更加簡(jiǎn)單有效的正則方法 R-Drop（Regularized Dropout）。實(shí)驗表明，R-Drop 在5個(gè)常用的包含 NLP（自然語(yǔ)言處理）和 CV（計算機視覺(jué)）的任務(wù)中都取得了當前最優(yōu)的結果。本文將介紹 R-Drop 的實(shí)施方法、作用與效果，讓大家一窺 R-Drop 的玄機。

深度神經(jīng)網(wǎng)絡(luò )（DNN）近來(lái)已經(jīng)在各個(gè)領(lǐng)域都取得了令人矚目的成功。在訓練這些大規模的 DNN 模型時(shí)，正則化（regularization）技術(shù)，如 L2 Normalization、Batch Normalization、Dropout 等是不可缺少的模塊，以防止模型過(guò)擬合（over-fitting），同時(shí)提升模型的泛化（generalization）能力。在這其中，Dropout 技術(shù)由于只需要簡(jiǎn)單地在訓練過(guò)程中丟棄一部分的神經(jīng)元，而成為了被最廣為使用的正則化技術(shù)。

近日，微軟亞洲研究院與蘇州大學(xué)在 Dropout [1] 的基礎上提出了進(jìn)一步的正則方法：Regularized Dropout，簡(jiǎn)稱(chēng)R-Drop。與傳統作用于神經(jīng)元（Dropout）或者模型參數（DropConnect [2]）上的約束方法不同，R-Drop 作用于模型的輸出層，彌補了 Dropout 在訓練和測試時(shí)的不一致性。簡(jiǎn)單來(lái)說(shuō)就是在每個(gè) mini-batch 中，每個(gè)數據樣本過(guò)兩次帶有 Dropout 的同一個(gè)模型，R-Drop 再使用 KL-divergence 約束兩次的輸出一致。所以，R-Drop 約束了由于 Dropout 帶來(lái)的兩個(gè)隨機子模型的輸出一致性。

與傳統的訓練方法相比，R- Drop 只是簡(jiǎn)單增加了一個(gè) KL-divergence 損失函數項，并沒(méi)有其他任何改動(dòng)。雖然該方法看起來(lái)很簡(jiǎn)單，但實(shí)驗表明，在5個(gè)常用的包含 NLP 和 CV 的任務(wù)中（一共18個(gè)數據集），R-Drop 都取得了非常不錯的結果提升，并且在機器翻譯、文本摘要等任務(wù)上取得了當前最優(yōu)的結果。

論文鏈接：https://arxiv.org/abs/2106.14448

GitHub 鏈接：https://github.com/dropreg/R-Drop

R-Drop方法

由于深度神經(jīng)網(wǎng)絡(luò )非常容易過(guò)擬合，因此 Dropout 方法采用了隨機丟棄每層的部分神經(jīng)元，以此來(lái)避免在訓練過(guò)程中的過(guò)擬合問(wèn)題。正是因為每次隨機丟棄部分神經(jīng)元，導致每次丟棄后產(chǎn)生的子模型都不一樣，所以 Dropout 的操作一定程度上使得訓練后的模型是一種多個(gè)子模型的組合約束?；?Dropout 的這種特殊方式對網(wǎng)絡(luò )帶來(lái)的隨機性，研究員們提出了 R-Drop 來(lái)進(jìn)一步對（子模型）網(wǎng)絡(luò )的輸出預測進(jìn)行了正則約束。

圖1：R-Drop 框架，在訓練時(shí)由 Dropout 帶來(lái)的兩次概率 P_1 和 P_2 的不同

具體來(lái)說(shuō)，當給定訓練數據 D={x_i,y_i }_(i=1)^n 后，對于每個(gè)訓練樣本 x_i，會(huì )經(jīng)過(guò)兩次網(wǎng)絡(luò )的前向傳播，從而得到兩次輸出預測：P_1 (y_i│x_i ), P_2 (y_i |x_i)。由于 Dropout 每次會(huì )隨機丟棄部分神經(jīng)元，因此 P_1 和 P_2 是經(jīng)過(guò)兩個(gè)不同的子網(wǎng)絡(luò )（來(lái)源于同一個(gè)模型）得到的不同的兩個(gè)預測概率（如圖1所示）。R-Drop 利用這兩個(gè)預測概率的不同，采用了對稱(chēng)的 Kullback-Leibler (KL) divergence 來(lái)對 P_1 和 P_2 進(jìn)行約束：

再加上傳統的最大似然損失函數：

最終的訓練損失函數即為：

其中 α 是用來(lái)控制 L_KL^i 的系數，因此整個(gè)模型的訓練非常簡(jiǎn)單。在實(shí)際實(shí)現中，數據 x_i 不需要過(guò)兩次模型，而只需要把 x_i 在同一個(gè) batch 中復制一份即可。直觀(guān)地說(shuō)，在訓練時(shí)，Dropout 希望每一個(gè)子模型的輸出都接近真實(shí)的分布，然而在測試時(shí)，Dropout 關(guān)閉使得模型僅在參數空間上進(jìn)行了平均，因此訓練和測試存在不一致性。而 R-Drop 則在訓練過(guò)程中通過(guò)刻意對于子模型之間的輸出進(jìn)行約束，來(lái)約束參數空間，讓不同的輸出都能一致，從而降低了訓練和測試的不一致性。另外，研究員們還從理論的角度出發(fā)，闡述了 R-Drop 的約束項對于模型自由度的控制，從而更好地提升模型的泛化性能。

NLP+CV實(shí)驗

為了驗證 R-Drop 的作用，研究員們在5個(gè)不同的 NLP 以及 CV 的任務(wù)：機器翻譯、文本摘要、語(yǔ)言模型、語(yǔ)言理解、圖像分類(lèi)，總計包含18個(gè)數據集上，進(jìn)行了實(shí)驗驗證。

1. 在機器翻譯任務(wù)上，基于最基礎的Transformer [3]模型，R-Drop 的訓練在 WMT14英語(yǔ)->德語(yǔ)以及英語(yǔ)->法語(yǔ)的任務(wù)上取得了最優(yōu)的 BLEU 分數（30.91/43.95），超過(guò)了其他各類(lèi)復雜、結合預訓練模型、或更大規模模型的結果：

表1：R-Drop 在 WMT14 英語(yǔ)->德語(yǔ)與英語(yǔ)->法語(yǔ)機器翻譯上的結果

2. 在圖像分類(lèi)任務(wù)上，基于預訓練好的 Vision Transformer（ViT）[4] 為骨架網(wǎng)絡(luò )，R-Drop 在 CIFAR-100 數據集以及 ImageNet 數據集上微調之后，ViT-B/16 和 ViT-L/16 的模型均取得了明顯的效果提升：

表2：R-Drop 基于 Vision Transformer 在 CIFAR-100、ImageNet 微調后圖像分類(lèi)的結果

3. 在NLU 語(yǔ)言理解任務(wù)上，R-Drop 在預訓練 BERT-base [5] 以及 RoBERTa-large [6] 的骨架網(wǎng)絡(luò )上進(jìn)行微調之后，在 GLEU 基礎數據集上輕松取得了超過(guò)1.2和0.8個(gè)點(diǎn)的平均分數提升：

表3：R-Drop 在 GLUE 語(yǔ)言理解的驗證集上的微調結果

4. 在文本摘要任務(wù)上，R-Drop 基于 BART [7] 的預訓練模型，在 CNN/Daily Mail 數據上微調之后也取得了當前最優(yōu)的結果：

表4：R-Drop 基于 BART 模型在 CNN/Daily Mail 文本摘要上微調的結果

5. 在語(yǔ)言模型任務(wù)上，基于原始 Transformer 以及 Adaptive Transformer [8]，R-Drop 的訓練在 Wikitext-103 數據集上取得了1.79和0.80的 ppl 提升：

表5：R-Drop 在 Wikitext-103 數據上的語(yǔ)言模型結果

可以看到，R-Drop 雖然很簡(jiǎn)單，但效果非常出眾，取得了很多任務(wù)上的最優(yōu)結果，并且在文本、圖像等不同的領(lǐng)域都能通用。除此之外，研究員們還進(jìn)行了各類(lèi)的分析實(shí)驗，包括訓練復雜度，k 步的 R-Drop、m 次的 R-Drop 等等，更進(jìn)一步對 R-Drop 進(jìn)行了全面的剖析。

結語(yǔ)與展望

R-Drop 的提出基于 Dropout 的隨機性，簡(jiǎn)單有效。在該工作中，目前只對于有監督的任務(wù)進(jìn)行了研究，未來(lái)在無(wú)監督、半監督學(xué)習中，以及更多不同數據類(lèi)型的任務(wù)中，也值得更為深入地探索。歡迎大家使用 R-Drop 訓練技術(shù)在各類(lèi)實(shí)際的場(chǎng)景中進(jìn)行應用。期待 R-Drop 的思想能啟發(fā)更多好的工作。

相關(guān)分享：

又是Dropout兩次！這次它做到了有監督任務(wù)的SOTA

https://kexue.fm/archives/8496

參考文獻：

[1] Srivastava, Nitish, et al. "Dropout: a simple way to prevent neural networks from overfitting." The journal of machine learning research 15.1 (2014): 1929-1958.

[2] Wan, Li, et al. "Regularization of neural networks using dropconnect." International conference on machine learning. PMLR, 2013.

[3] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.

[4] Dosovitskiy, Alexey, et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." International Conference on Learning Representations. 2020.

[5] Kenton, Jacob Devlin Ming-Wei Chang, and Lee Kristina Toutanova. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." Proceedings of NAACL-HLT. 2019.

[6] Liu, Yinhan, et al. "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019).

[7] Lewis, Mike, et al. "BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension." Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020.

[8] Baevski, Alexei, and Michael Auli. "Adaptive Input Representations for Neural Language Modeling." International Conference on Learning Representations. 2018.

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

led燈相關(guān)文章:led燈原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 深度學(xué)習

相關(guān)推薦

深度學(xué)習（人工神經(jīng)網(wǎng)絡(luò )的研究的概念）

大綠葉 | 2020-07-28

直覺(jué)有害！Facbook最新研究：易于解釋的神經(jīng)元會(huì )誤導DNN的學(xué)習

智能計算 DNN 深度神經(jīng)網(wǎng)絡(luò ) 深度學(xué)習 | 2022-07-05

AI深度學(xué)習

loof_lripa | 2024-04-20

基于深度學(xué)習的跌倒檢測技術(shù)對比與分析*

智能計算深度學(xué)習跌倒檢測卷積神經(jīng)網(wǎng)絡(luò ) 長(cháng)短期記憶網(wǎng)絡(luò ) 202212 | 2022-12-22

Deep Learning中文版

資源下載深度學(xué)習中文 | 2019-06-11

射頻系統的深度學(xué)習

資源下載 ADI RF DSP 深度學(xué)習 | 2020-04-20

深度學(xué)習模型的云邊協(xié)同訓練和部署*

智能計算云邊協(xié)同深度學(xué)習服務(wù)器部署 202212 | 2022-12-22

深度學(xué)習（DeepLearning）

szhlss123 | 2022-08-17

什么是人機交互技術(shù)？

龍騰AI技術(shù) | 2022-11-02

基于圖結構的圖像注意力網(wǎng)絡(luò )

智能計算 202207 深度學(xué)習注意力機制圖像分類(lèi) 人臉識別 | 2022-07-26

TFLite模型的開(kāi)盲盒體驗

嵌入式系統 TFLite 模型推理庫深度學(xué)習 | 2024-05-10

深度強化學(xué)習核心技術(shù)開(kāi)發(fā)與應用

szhlss123 | 2022-08-10

Firefly DL小巧輕便，嵌入式深度學(xué)習加速部署

智能計算 Firefly DL 深度學(xué)習人工智能 | 2023-12-22

一種改進(jìn)的可遷移深度學(xué)習模型*

智能計算 202210 可遷移深度學(xué)習無(wú)標簽 | 2022-10-25

視覺(jué)慣性導航融合算法研究進(jìn)展

物聯(lián)網(wǎng)與傳感器 202302 視覺(jué)慣性導航優(yōu)化耦合算法深度學(xué)習 | 2023-02-21

基于深度學(xué)習的智能電網(wǎng)短期日負荷曲線(xiàn)預測系統設計與實(shí)現

智能計算 202302 深度學(xué)習短期負荷預測卷積神經(jīng)網(wǎng)絡(luò ) 長(cháng)短期記憶網(wǎng)格 Flask | 2023-02-27

為什么深度學(xué)習如此容易被愚弄？AI研究員正努力修復神經(jīng)網(wǎng)絡(luò )缺陷

智能計算 DNN 深度神經(jīng)網(wǎng)絡(luò ) 深度學(xué)習 | 2022-07-05

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>