ICLR 2021 | 微軟亞洲研究院精選論文一覽(2)
結論三:預訓練和下游任務(wù)的問(wèn)題對齊決定了遷移效果
為了進(jìn)一步解釋為何自監督預訓練在目標檢測上效果更好,研究員們又做了如下實(shí)驗。(1)通過(guò)分析檢測錯誤,自監督預訓練能得到更準確的位置信息。(2)當利用 Deep image prior 對高層特征進(jìn)行圖像重建時(shí),自監督重建的圖像更接近于原圖并且更加完整。雖然對比學(xué)習訓練時(shí)也包含了位置尺度不變性,但卻能在重建中保持正確的尺度和位置。相反,有監督的學(xué)習過(guò)度關(guān)注物體的局部區域,丟失了很多對于精確定位的重要信息。研究員們認為 instance discrimination 方法為了保證當前實(shí)例區別與其它所有實(shí)例,盡可能的保留了更多的信息。
圖6:對于物體檢測,有監督的預訓練(相比自監督)帶來(lái)了更多定位的錯誤
圖7:自監督模型可以更好的重建底層的圖像信息
二、一種改進(jìn)的有監督預訓練方法
大量的標注數據包含了豐富的語(yǔ)義信息,應該對下游任務(wù)有所幫助,但傳統的有監督預訓練是通過(guò)減小 intra-class variation 進(jìn)行學(xué)習的。這樣模型更多的關(guān)注了對特定類(lèi)有識別力的區域,從而忽略了其它可能包含有用信息的區域。一個(gè)更好的有監督預訓練方法應該僅僅拉遠不同類(lèi)的實(shí)例,而不對同類(lèi)樣本加以任何約束,這樣可以更好地保留每個(gè)實(shí)例的特征。參考 examplar SVM 的方法,研究員們在 instance discrimination 的損失函數上進(jìn)行了改進(jìn)。
實(shí)驗證明這種方式在圖像分類(lèi)和目標識別兩個(gè)下游任務(wù)上都得到了提升。
表9:改進(jìn)的有監督模型 examplar 提高了遷移性能
基于實(shí)例的層序可變Transformer網(wǎng)絡(luò )結構
論文地址: https://arxiv.org/abs/2103.03457
Transformer 網(wǎng)絡(luò )在自然語(yǔ)言以及視覺(jué)領(lǐng)域取得了極大的成功。它由三個(gè)基本的子層:自注意力層 (self-attention, SA)、編碼-解碼注意力層 (encoder-decoder attention, ED)和前饋全連接層 (feed-forward, FF)線(xiàn)性堆疊而成,并且這些子層的順序是固定的。然而,微軟亞洲研究院的研究員們通過(guò)一些簡(jiǎn)單的驗證發(fā)現,不同的子層順序堆疊的網(wǎng)絡(luò ) (如 SA→FF→ED 或者 FF→ED→SA) 對于不同的樣本來(lái)說(shuō)重要程度是不一樣的。如表10所示,對于這個(gè)句子,用不同的子層順序網(wǎng)絡(luò )翻譯出的結果差距非常大。這告訴研究員們,其實(shí)每個(gè)語(yǔ)句都擁有自己偏好的網(wǎng)絡(luò )順序來(lái)進(jìn)行更好的翻譯。
基于上述發(fā)現,研究員們提出了基于實(shí)例的子層順序動(dòng)態(tài)可變的 Transformer 網(wǎng)絡(luò )結構 (IOT),以打破固定順序的 Transformer 網(wǎng)絡(luò ),使得網(wǎng)絡(luò )能夠通過(guò)不同順序的堆疊來(lái)建模不同的函數,從而增大了網(wǎng)絡(luò )的建??臻g并提升最后的任務(wù)結果表現。值得注意的是,研究員們的方法幾乎沒(méi)有增加額外的參數,并且能夠適用于各類(lèi)神經(jīng)網(wǎng)絡(luò ) (如驗證了在 DynamicConv 上的結果) ,只需網(wǎng)絡(luò )包含不同的子層結構。
表10:一句德文語(yǔ)句的不同子層順序網(wǎng)絡(luò )對應的不同英文翻譯結果以及 BLEU、TER 的分數差距
關(guān)于論文中使用的方法,具體來(lái)說(shuō),研究員們在 Transformer 的編碼器和****模塊之前各增加了一個(gè)輕量的、基于 MLP 的層序預測器網(wǎng)絡(luò ),以此來(lái)進(jìn)行不同的子層順序選擇??蚣苋鐖D8所示,圖中展示了對于三個(gè)不同的樣本進(jìn)行各自的子層順序網(wǎng)絡(luò )選擇的結果。
圖8:IOT: 基于實(shí)例的子層順序變化的框架圖以及三個(gè)樣例的順序選擇
研究員們采用了基于 Gumbel-softmax 的不同子層順序的權重學(xué)習。以****的順序選擇為例,λ_n 即為第 n 種層序的重要程度,其中 s_d 為編碼器最后層輸出的平均。同理,編碼器的第m種順序的重要程度用 γ_m 表示。所以研究員們根據 λ_n 以及 γ_m 的大小 (argmax) 來(lái)選擇相應的編碼器和****的子層順序。
在訓練過(guò)程中,研究員們還使用了一個(gè)探索(exploration)和一個(gè)利用(exploitation)的損失函數來(lái)輔助訓練(通過(guò)約束順序的分布),從而使得每個(gè)數據實(shí)例能夠選擇其偏好的順序,并且網(wǎng)絡(luò )能夠穩定且有效。
研究員們在三個(gè)不同的序列生成任務(wù)——機器翻譯、文本摘要以及代碼生成上進(jìn)行了驗證,一共包含9個(gè)不同的數據集。實(shí)驗表明 IOT 都取得了超越基準模型不少的優(yōu)異結果。如在 IWSLT8 個(gè)方向的小數據集翻譯任務(wù)上都取得了超過(guò)一個(gè)點(diǎn)的 BLEU 提升,在 WMT14 的 En->De 大數據上取得了30.03的 BLEU 分數。研究員們還進(jìn)行了各類(lèi)不同方面的分析,以數據和順序間的選擇關(guān)系為例,如圖9所示,在數據所選擇的子層順序網(wǎng)絡(luò )上的確取得了超越其余子層順序的更優(yōu)結果,因此證明了數據的確進(jìn)行了自己更偏好的、更優(yōu)的子層順序選擇。研究員們的方法簡(jiǎn)單而高效,希望能夠讓更多人關(guān)注如何構建動(dòng)態(tài)網(wǎng)絡(luò ),從而增強網(wǎng)絡(luò )的建模能力。
圖9:根據層序預測器預測劃分的數據集以及不同子層順序的翻譯結果
基于回報的對比表征學(xué)習在強化學(xué)習中的應用
論文地址: https://openreview.net/pdf?id=_TM6rT7tXke
在深度強化學(xué)習中,如何學(xué)習緊致且有效的狀態(tài)表示是解決復雜決策問(wèn)題和提升樣本效率的一個(gè)關(guān)鍵問(wèn)題。最近,很多工作利用基于對比學(xué)習的輔助任務(wù)在強化學(xué)習過(guò)程中加強狀態(tài)表示的學(xué)習,都取得了很好的實(shí)際效果,但已有的基于對比學(xué)習的輔助任務(wù)并沒(méi)有充分考慮到強化學(xué)習問(wèn)題的特性,而且大多是無(wú)/自監督的。因此,微軟亞洲研究院的研究員們探究了如何利用回報分布 (Return Distribution)——強化學(xué)習中最為重要的反饋信號,來(lái)構建一個(gè)新的對比學(xué)習式輔助任務(wù)。
首先,為了從數學(xué)上嚴謹地刻畫(huà)利用回報分布這一想法,研究員們提出了 Z^π-irrelevance 抽象函數。直觀(guān)上來(lái)說(shuō),Z^π-irrelevance 抽象函數會(huì )把回報分布類(lèi)似的狀態(tài)動(dòng)作對聚集到一起。相比于之前的抽象函數,該函數能夠在不損失過(guò)多信息的同時(shí),大幅縮小狀態(tài)動(dòng)作空間,從而提高學(xué)習效率。該抽象函數具有兩大特點(diǎn):
1.可以更大程度上地縮小狀態(tài)動(dòng)作空間。
2.能夠在抽象狀態(tài)動(dòng)作空間中精確表示原狀態(tài)動(dòng)作空間的價(jià)值函數。
圖10:Z^π-irrelevance 抽象函數示意圖
接下來(lái),為了從采樣數據中學(xué)習得到 Z^π-irrelevance 抽象函數,研究員們提出了基于對比損失函數的Z學(xué)習算法:
這里,? 代表編碼器,也就是狀態(tài)動(dòng)作表示;w 代表判別器;y 是二元標簽,用于判斷當前兩個(gè)狀態(tài)動(dòng)作對 x_1,x_2 是否具有相同的采樣回報值。
在理論上,該方法嚴謹地證明了 Z 學(xué)習算法會(huì )以 1/√n 的速率收斂到 Z^π-irrelevance 抽象函數。而實(shí)際中,也可以通過(guò)分段的方式來(lái)判斷兩個(gè)狀態(tài)動(dòng)作是否具有同樣的采樣回報值。具體來(lái)說(shuō),軌跡內分段的思路如下:從頭到尾捋一遍采樣得到的整條軌跡,如果累計的獎勵絕對值變動(dòng)超過(guò)某個(gè)閾值,那么就會(huì )從這里形成一個(gè)新的分段。這就是實(shí)際的 RCRL 算法。
圖11:RCRL 算法示意圖
為了驗證算法的有效性,研究員們分別在 Atari 游戲的26個(gè)游戲以及 DMControl 套件的6個(gè)任務(wù)中進(jìn)行了大量實(shí)驗,結果表明 RCRL 算法不僅可以取得比其它前沿的狀態(tài)表示算法更佳的樣本效率,還可以和一些已有的狀態(tài)表示算法 (比如,CURL) 結合,共同提升基準算法的樣本效率。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。