無(wú)需「域外」文本,微軟:NLP就應該針對性預訓練
在生物醫學(xué)這樣的專(zhuān)業(yè)領(lǐng)域訓練NLP模型,除了特定數據集,「域外」文本也被認為是有用的。但最近,微軟的研究人員「大呼」:我不這么覺(jué)得!
本文引用地址:http://dyxdggzs.com/article/202008/416905.htm什么是預訓練?這是一個(gè)拷問(wèn)人工智能「門(mén)外漢」的靈魂問(wèn)題。生而為人,我們不需要一切從零開(kāi)始學(xué)習。但是,我們會(huì )「以舊學(xué)新」,用過(guò)去所學(xué)的舊知識,來(lái)理解新知識和處理各種新任務(wù)。在人工智能中,預訓練就是模仿人類(lèi)這個(gè)過(guò)程。
預訓練(pre-training)這個(gè)詞經(jīng)常在論文中見(jiàn)到,指的是用一個(gè)任務(wù)去訓練一個(gè)模型,幫助它形成可以在其他任務(wù)中使用的參數。
用已學(xué)習任務(wù)的模型參數初始化新任務(wù)的模型參數。通過(guò)這種方式,舊的知識可以幫助新模型從舊的經(jīng)驗中成功地執行新任務(wù),而不是從零開(kāi)始。
以前的研究已經(jīng)表明,在像生物醫學(xué)這樣的專(zhuān)業(yè)領(lǐng)域,當訓練一個(gè)NLP模型時(shí),特定領(lǐng)域的數據集可以提高準確性。不過(guò),還有一個(gè)普遍的認識是,「域外」文本也有用。但是!微軟研究人員對這一假設提出了質(zhì)疑。
近日,微軟研究人員提出一種人工智能技術(shù),針對生物醫學(xué)NLP的領(lǐng)域特定語(yǔ)言模型預訓練。并自信地說(shuō),通過(guò)從公開(kāi)的數據集中編譯一個(gè)「全面的」生物醫學(xué)NLP基準,在包括命名實(shí)體識別、基于證據的醫學(xué)信息提取、文檔分類(lèi)等任務(wù)上取得了最先進(jìn)的成果。
他們認為,「混合領(lǐng)域」預訓練?不就是遷移學(xué)習的另一種形式嗎?源領(lǐng)域是一般文本(如新聞),目標領(lǐng)域是專(zhuān)門(mén)文本(如生物醫學(xué)論文)。
在此基礎上,針對特定領(lǐng)域的生物醫學(xué)NLP模型的預訓練總是優(yōu)于通用語(yǔ)言模型的預訓練,說(shuō)明「混合領(lǐng)域」預訓練并不完美。
神經(jīng)語(yǔ)言模型預訓練的兩種范式?!富旌项I(lǐng)域」預訓練(上);只使用域內文本預訓練(下)
如此自信,研究人員是有證據的。他們通過(guò)對生物醫學(xué)NLP應用的影響,比較了訓練前的建模和特定任務(wù)的微調。
第一步,他們創(chuàng )建了一個(gè)名為生物醫學(xué)語(yǔ)言理解和推理基準(BLURB)的基準,該基準側重于PubMed(一個(gè)生物醫學(xué)相關(guān)的數據庫)提供的出版物,涵蓋了諸如關(guān)系提取、句子相似度和問(wèn)題回答等任務(wù),以及諸如是/否問(wèn)題回答等分類(lèi)任務(wù)。為了計算總結性分數,BLURB中的語(yǔ)料庫按任務(wù)類(lèi)型分組,并分別打分,之后計算所有的平均值。
為了評估,他們又在最新的PubMed文檔中生成了一個(gè)詞匯表并訓練了一個(gè)模型:1400萬(wàn)篇摘要和32億個(gè)單詞,總計21GB。在一臺擁有16個(gè)V100顯卡的Nvidia DGX-2機器上,培訓了大約5天時(shí)間。這個(gè)模型具有62,500步長(cháng)和批量大小,可與以前生物醫學(xué)預訓練實(shí)驗中使用的計算量相媲美。
又一個(gè)自信,研究人員說(shuō)他們的模型——PubMedBERT,是建立在谷歌的BERT之上。
那個(gè)牛掰掰的BERT?Google 在 2018 年提出的一種 NLP 模型,成為最近幾年 NLP 領(lǐng)域最具有突破性的一項技術(shù)。
但有趣的是,將PubMed的全文添加到預訓練文本(168億字)中會(huì )讓性能略有下降,直到預訓練時(shí)間延長(cháng)。但研究人員將這部分歸因于數據中的噪聲。
“在本文中,我們挑戰了神經(jīng)語(yǔ)言預訓練模型中普遍存在的假設(就是前面說(shuō)的「混合領(lǐng)域」預訓練),并證明了從「無(wú)」開(kāi)始對特定領(lǐng)域進(jìn)行預訓練可以顯著(zhù)優(yōu)于「混合領(lǐng)域」預訓練?!笧樯镝t學(xué)NLP的應用帶來(lái)了新的、最先進(jìn)的結果,」研究人員寫(xiě)道,「我們未來(lái)會(huì )進(jìn)一步探索特定領(lǐng)域的預培訓策略,將BLURB基準擴展到臨床或其他高價(jià)值領(lǐng)域?!?/p>
為了鼓勵生物醫學(xué)NLP的研究,研究人員創(chuàng )建了一個(gè)以BLURB基準為特色的排行榜。他們還以開(kāi)源的方式發(fā)布了預先訓練過(guò)的特定任務(wù)模型。
研究已發(fā)布于預印論文網(wǎng)站arxiv上。
評論