<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > NLP預訓練范式大一統,不再糾結下游任務(wù)類(lèi)型,谷歌這個(gè)新框架刷新50個(gè)SOTA

NLP預訓練范式大一統,不再糾結下游任務(wù)類(lèi)型,谷歌這個(gè)新框架刷新50個(gè)SOTA

發(fā)布人:機器之心 時(shí)間:2022-05-15 來(lái)源:工程師 發(fā)布文章

在這篇論文中,來(lái)自谷歌的研究者提出了一種統一各種預訓練范式的預訓練策略,這種策略不受模型架構以及下游任務(wù)類(lèi)型影響,在 50 項 NLP 任務(wù)中實(shí)現了 SOTA 結果。


圖片


當前,NLP 研究人員和從業(yè)者有大量的預訓練模型可以選擇。在回答應該使用什么模型的問(wèn)題時(shí),答案通常取決于需要完成什么任務(wù)。
這個(gè)問(wèn)題并不容易回答,因為涉及許多更細節的問(wèn)題,例如使用什么樣的架構?span corruption 還是語(yǔ)言模型?答案似乎取決于目標下游任務(wù)。
來(lái)自谷歌的研究者重新思考了這一問(wèn)題,他們具體回答了為什么預訓練 LM 的選擇要依賴(lài)于下游任務(wù),以及如何預訓練在許多任務(wù)中普遍適用的模型。
該研究試圖讓普遍適用的語(yǔ)言模型成為可能,提出了一個(gè)統一的語(yǔ)言學(xué)習范式,簡(jiǎn)稱(chēng) UL2 框架。該框架在一系列非常多樣化的任務(wù)和環(huán)境中均有效。

圖片


  • 論文鏈接:https://arxiv.org/pdf/2205.05131.pdf

  • 代碼地址:https://github.com/google-research/google-research/tree/master/ul2


如下圖 1 所示,與其他需要權衡取舍的模型不同。UL2 模型的性能普遍良好。

圖片


通用模型的優(yōu)勢是顯而易見(jiàn)的。有了通用模型,研究者就可以集中精力改進(jìn)和擴展單個(gè)模型,而不是在 N 個(gè)模型上分散資源。此外,在只能為少數模型提供資源的受限環(huán)境下,最好有一個(gè)可以在多種任務(wù)上表現良好的預訓練模型。
UL2 的核心是一種新提出的預訓練目標 Mixture-of-Denoisers(MoD),可實(shí)現跨任務(wù)的強大性能。MoD 是幾個(gè)成熟的去噪目標和新目標的混合體,包括考慮 extreme span 長(cháng)度和損壞率的 X-denoising(extreme denoising)、嚴格遵循序列順序的 S-denoising(sequential denoising)和標準 span 損壞目標的 R-denoising(regular denoising)。該研究表明,MoD 雖然在概念上很簡(jiǎn)單,但對于多種任務(wù)都非常有效。
該方法利用一種思路:對于大多數預訓練目標來(lái)說(shuō),模型所依賴(lài)的上下文類(lèi)型各有不同。例如,span corruption 目標類(lèi)似于調用前綴語(yǔ)言建模 (PLM) 的多個(gè)區域(Liu et al., 2018; Raffel et al., 2019),其中前綴是 non-corrupted token 的連續片段,目標(target)具有所有 PLM 片段前綴的訪(fǎng)問(wèn)權限。span 接近全序列長(cháng)度的設置可以近似看作一個(gè)以長(cháng)程上下文為條件的語(yǔ)言建模目標。
因此,研究者認為可以設計一個(gè)預訓練目標,將這些不同的范式結合起來(lái)( span corruption vs 語(yǔ)言建模 vs 前綴語(yǔ)言建模)。
不難看出,每個(gè)去噪器(denoiser)的難度不同,其外推或內插的性質(zhì)也不同。
根據 MoD 的公式,研究者推測該模型不僅能在預訓練期間區分不同的去噪器,而且在學(xué)習下游任務(wù)時(shí)能自適應地切換模式,這種形式是很有益的。
該研究提出了模式切換,這是一個(gè)將預訓練任務(wù)與專(zhuān)用標記 token 相關(guān)聯(lián)的新概念,允許通過(guò)離散 prompting 進(jìn)行動(dòng)態(tài)模式切換。該模型在經(jīng)過(guò)預訓練后能夠按需在 R、S 和 X 去噪器之間切換模式。
然后,研究者將該架構與自監督方案解耦。雖然「預訓練模型的主要特征是其主干架構」這一說(shuō)法可能是一個(gè)常見(jiàn)的誤解,但研究者發(fā)現,denoiser 的選擇實(shí)際上具有更大的影響。MoD 支持任一主干架構,類(lèi)似于 T5 的 span corruption 可以用一個(gè) decoder-only 模型來(lái)訓練。因此,架構的選擇對 UL2 影響不大。研究者認為主干架構的選擇主要是不同效率指標之間的權衡。
研究者在 9 種不同的任務(wù)上進(jìn)行了系統的消融實(shí)驗,這 9 個(gè)任務(wù)旨在解決不同的問(wèn)題。
此外,該研究在開(kāi)放文本生成任務(wù)上進(jìn)行了評估,并在基于 prompt 的單樣本環(huán)境下對所有任務(wù)進(jìn)行了評估。消融實(shí)驗的結果表明,UL2 在所有 9 個(gè)任務(wù)上都優(yōu)于 T5 和 GPT 類(lèi)基線(xiàn)。平均而言,UL2 比 T5 基線(xiàn)高出 +43.6%,比一個(gè)語(yǔ)言模型高出 +76.1%。在其他競爭基線(xiàn)中,UL2 是唯一在所有任務(wù)上都優(yōu)于 T5 和 GPT 類(lèi)模型的方法。
研究者進(jìn)一步將 UL2 擴展到大約 20B(準確地說(shuō)是 19.5 B)參數的中等規模,并在包含 50 多個(gè) NLP 任務(wù)的多樣化的組合中進(jìn)行實(shí)驗,這些任務(wù)包括語(yǔ)言生成(具有自動(dòng)和人工評估)、語(yǔ)言理解、文本分類(lèi)、問(wèn)答、常識推理、長(cháng)文本推理、結構化知識基礎和信息檢索。實(shí)驗結果表明,UL2 在絕大多數任務(wù)和環(huán)境下都達到了 SOTA。
最后,研究者使用 UL2 進(jìn)行了零 / 少樣本實(shí)驗,并表明 UL2 在零樣本 SuperGLUE 上的性能優(yōu)于 GPT-3 175B。與 GLaM (Du et al., 2021)、PaLM (Chowdhery et al., 2022) 和 ST-MoE (Zoph et al., 2022) 等較新的 SOTA 模型相比,UL2 盡管僅在 C4 語(yǔ)料庫上進(jìn)行了訓練,但在計算匹配環(huán)境下的性能仍然極具競爭力。
研究者深入分析了零樣本與微調性能之間的權衡,表明 UL2 在兩種學(xué)習范式上都是帕累托有效的。UL2 的性能是一個(gè) LM adapted T5 XXL 模型的三倍,在相同的計算成本下可與 PaLM 和 LaMDA 媲美。
這篇論文的(并列)第一作者是谷歌 AI 高級研究科學(xué)家 Yi Tay 和谷歌大腦研究科學(xué)家 Mostafa Dehghani。
Yi Tay 2019 年在新加坡南洋理工大學(xué)拿到計算機科學(xué)博士學(xué)位。他是一位高產(chǎn)的論文作者,曾在 2018 年一年之內以第一作者身份發(fā)表了 14 篇領(lǐng)域內頂會(huì )論文。此外,他的論文也拿到過(guò)多個(gè)獎項,如 ICLR 2021 年杰出論文獎、WSDM 2021 年最佳論文獎(亞軍)和 WSDM 2020 年最佳論文獎(亞軍)。此外,他還曾擔任 EMNLP 和 NAACL 等頂級 NLP 會(huì )議的區域主席。

圖片


Mostafa Dehghani 在阿姆斯特丹大學(xué)拿到的博士學(xué)位,獲得過(guò) ACM SIGIR ICTIR 2016 年最佳論文獎等獎項。他在谷歌主要研究基于注意力的視覺(jué)和語(yǔ)言模型,是熱門(mén)論文《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》的作者之一。

圖片


以下是論文細節。
UL2 詳解
用統一視角看預訓練任務(wù)
許多預訓練任務(wù)可以被簡(jiǎn)單地表述為「輸入到目標(input-to-target)」型任務(wù),其中輸入指的是模型所依賴(lài)的任何形式的記憶或上下文,而目標是模型的預期輸出。語(yǔ)言模型使用所有以前的時(shí)間步作為輸入來(lái)預測下一個(gè) token,即目標。在 span corruption 中,模型利用來(lái)自過(guò)去和未來(lái)的所有未損壞的 token 作為預測 corrupted span(目標)的輸入。Prefix-LM 是使用過(guò)去的 token 作為輸入的語(yǔ)言模型,但它雙向使用輸入:這比普通語(yǔ)言模型中輸入的單向編碼提供了更強的建模能力。
從這個(gè)角度來(lái)看,我們可以將一個(gè)預訓練目標簡(jiǎn)化為另一個(gè)目標。例如,在 span corruption 目標中,當 corrupted span(目標)等于整個(gè)序列時(shí),該問(wèn)題實(shí)際上就變成了一個(gè)語(yǔ)言建模問(wèn)題??紤]到這一點(diǎn),使用 span corruption,通過(guò)將 span 長(cháng)度設置得很大,我們可以在局部區域中有效地模擬語(yǔ)言建模目標。
研究者們定義了一個(gè)符號,它涵蓋了本文中使用的所有不同的去噪任務(wù)。去噪任務(wù)的輸入和目標由 SPANCORRUPT 函數生成,該函數由三個(gè)值 (μ, r, n) 來(lái)參數化,其中 μ 是平均 span 長(cháng)度,r 是 corruption rate,n 是 corrupted span 的數量。注意,n 可能是輸入長(cháng)度 L 和 span 長(cháng)度 μ 的函數,如 L/μ,但在某些情況下,研究者使用 n 的固定值。給定輸入文本,SPANCORRUPT 將 corruption 引入從具有 u 均值的(正態(tài)或均勻)分布中提取的長(cháng)度的 span。在 corruption 之后,輸入文本被饋送到去噪任務(wù),corrupted span 被用作要恢復的目標。
舉個(gè)例子,用這個(gè)公式來(lái)構建一個(gè)類(lèi)似于因果語(yǔ)言建模的目標,只需設置 (μ = L, r = 1.0, n = 1) ,即單個(gè) span 的長(cháng)度等于序列的長(cháng)度。要表達一個(gè)類(lèi)似于 Prefix LM 的目標,可以設置 (μ = L ? P, r = 1.0 ? P/L, n = 1) ,其中 P 是 prefix 的長(cháng)度,附加的約束是單個(gè) corrupted span 總是到達序列的末尾。
研究者注意到,這種 inputs-to-target 的公式既可以應用于編碼器 - ****模型,也可以應用于單棧 Transformer 模型(如****模型)。他們選擇了預測下一個(gè)目標 token 的模型,而不是就地預測的模型(例如 BERT 中的預測當前掩蔽 token),因為下一個(gè)目標公式更通用,并且可以包含更多的任務(wù),而不是使用特殊的「CLS」token 和特定于任務(wù)的 projection head。
Mixture of Denoisers 

圖片


研究者認為,在預訓練期間,一個(gè)強大的通用模型必須去面對、解決不同的問(wèn)題集。假設預訓練是使用自監督完成的,研究者認為這種多樣性應該被注入到模型的目標中,否則模型可能會(huì )缺乏某種能力,比如連貫長(cháng)文本生成能力。
基于此,以及當前的目標函數類(lèi)型,他們定義了預訓練期間使用的三種主要范式:

  • R-Denoiser,regular denoising 是 Raffel et al. (2019) 引入的標準 span corruption,它使用 2 到 5 個(gè) token 作為 span length,遮蔽了大約 15% 的輸入 token。這些 span 非常短,可能有助于知識獲?。ǘ菍W(xué)習生成流暢的文本)。


  • S-Denoiser,去噪的一種具體情況,在構建 inputs-to-targets 任務(wù)時(shí)遵守嚴格的順序,即 prefix 語(yǔ)言建模。為此,研究者只需將輸入序列劃分為兩個(gè) token 子序列,分別作為上下文和目標,這樣目標就不依賴(lài)于未來(lái)的信息。這與標準 span corruption 不同,在標準 span corruption 中,可能存在位置比上下文 token 更早的目標 token。注意,與 Prefix-LM 設置類(lèi)似,上下文(prefix)保留了一個(gè)雙向感受野。研究者注意到,具有非常短的記憶或沒(méi)有記憶的 S-Denoising 與標準的因果語(yǔ)言建模的精神是相似的。


  • X-Denoiser,去噪的一種 extreme 版本,模型必須恢復輸入的絕大部分。這模擬了模型需要借助有限信息記憶生成長(cháng)目標的情況。為此,研究者選擇了包含積極去噪的例子,其中大約 50% 的輸入序列被遮蔽。這是通過(guò)增加 span 長(cháng)度和 / 或 corruption 率來(lái)實(shí)現的。如果預訓練任務(wù) span 長(cháng)(如≥ 12 個(gè) token)或 corruption 率高(如≥ 30%),就認為該任務(wù)是 extreme 的。X-denoising 的動(dòng)機是作為常規 span corruption 和類(lèi)似目標的語(yǔ)言模型之間的插值而存在。


圖片


這組 denoiser 與先前使用的目標函數有很強的聯(lián)系:R-Denoising 是 T5 span corruption 目標,S-Denoising 與類(lèi) GPT 的因果語(yǔ)言模型相關(guān),而 X-Denoising 可以將模型暴露給來(lái)自 T5 和因果 LM 的目標的組合。值得注意的是,X-denoiser 也被連接起來(lái)以提高樣本效率,因為在每個(gè)樣本中可以學(xué)習到更多的 token 來(lái)預測,這與 LM 的理念類(lèi)似。研究者提出以統一的方式混合所有這些任務(wù),并有一個(gè)混合的自監督的目標。最終目標是混合 7 個(gè)去噪器,配置如下:

圖片


對于 X - 和 R-Denoiser,span 長(cháng)度從均值為 μ 的正態(tài)分布中采樣。對于 S-denoiser,他們使用均勻分布,將 corrupted span 的數量固定為 1,并且具有額外的約束,即 corrupted span 應該在原始輸入文本的末尾結束,在 corrupted 部分之后不應該出現未被裁剪的 token。這大致相當于 seq2seq 去噪或 Prefix LM 預訓練目標。
由于 LM 是 Prefix-LM 的一種特殊情況,研究者認為沒(méi)有必要在混合中包含一個(gè)偶然的 LM 任務(wù)。所有任務(wù)在混合中具有大致相同的參與度。研究者還探索了一種替代方案,他們將混合配置中 S-denoiser 的分量增加到 50%,其余份額由其他 denoiser 共享。
最后,「混合」這一動(dòng)作使得 Mixture-of-Denoisers 具有非常強的通用性。單獨來(lái)看,一些 denoiser 類(lèi)型表現不佳。例如,最初的 T5 論文探索了一個(gè)具有 50% corruption rate 的選項(X-denoising),但發(fā)現效果不佳。
UL2 的 Mixture-of-Denoisers 的實(shí)現非常簡(jiǎn)單,使用 seqio3 之類(lèi)的庫很容易實(shí)現。
模式切換
研究者引入了通過(guò)模式切換進(jìn)行范式轉換的概念。在預訓練期間,他們?yōu)槟P吞峁┝艘粋€(gè)額外的范式 token,即 {[R],[S],[X]},這有助于模型切換到更適合給定任務(wù)的模式。對于微調和下游 few-shot 學(xué)習,為了觸發(fā)模型學(xué)習更好的解決方案,研究者還添加了一個(gè)關(guān)于下游任務(wù)的設置和要求的范式 token。模式切換實(shí)際上是將下游行為綁定到上游訓練中使用的模式之一上。
消融實(shí)驗結果
表 2 顯示了在所有基準測試任務(wù)和數據集上的原始結果。

圖片


為了方便不同設置之間的比較,研究者還給出了 UL2 與已建立的基線(xiàn)(如 T5 和 GPT 模型)的相對比較,如表 3 和表 4 所示。

圖片


圖片


擴展到 200 億參數之后的結果
圖 8 顯示了 UL20B 在不同任務(wù)中與之前 SOTA 的對比結果。

圖片


圖片


更多細節請參見(jiàn)原論文。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>