<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 業(yè)界動(dòng)態(tài) > 無(wú)需「域外」文本，微軟：NLP就應該針對性預訓練

無(wú)需「域外」文本，微軟：NLP就應該針對性預訓練

作者：時(shí)間：2020-08-10 來(lái)源：51cto

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

在生物醫學(xué)這樣的專(zhuān)業(yè)領(lǐng)域訓練NLP模型，除了特定數據集，「域外」文本也被認為是有用的。但最近，微軟的研究人員「大呼」：我不這么覺(jué)得！

本文引用地址：http://dyxdggzs.com/article/202008/416905.htm

什么是預訓練？這是一個(gè)拷問(wèn)人工智能「門(mén)外漢」的靈魂問(wèn)題。生而為人，我們不需要一切從零開(kāi)始學(xué)習。但是，我們會(huì )「以舊學(xué)新」，用過(guò)去所學(xué)的舊知識，來(lái)理解新知識和處理各種新任務(wù)。在人工智能中，預訓練就是模仿人類(lèi)這個(gè)過(guò)程。

預訓練（pre-training）這個(gè)詞經(jīng)常在論文中見(jiàn)到，指的是用一個(gè)任務(wù)去訓練一個(gè)模型，幫助它形成可以在其他任務(wù)中使用的參數。

用已學(xué)習任務(wù)的模型參數初始化新任務(wù)的模型參數。通過(guò)這種方式，舊的知識可以幫助新模型從舊的經(jīng)驗中成功地執行新任務(wù)，而不是從零開(kāi)始。

以前的研究已經(jīng)表明，在像生物醫學(xué)這樣的專(zhuān)業(yè)領(lǐng)域，當訓練一個(gè)NLP模型時(shí)，特定領(lǐng)域的數據集可以提高準確性。不過(guò)，還有一個(gè)普遍的認識是，「域外」文本也有用。但是！微軟研究人員對這一假設提出了質(zhì)疑。

近日，微軟研究人員提出一種人工智能技術(shù)，針對生物醫學(xué)NLP的領(lǐng)域特定語(yǔ)言模型預訓練。并自信地說(shuō)，通過(guò)從公開(kāi)的數據集中編譯一個(gè)「全面的」生物醫學(xué)NLP基準，在包括命名實(shí)體識別、基于證據的醫學(xué)信息提取、文檔分類(lèi)等任務(wù)上取得了最先進(jìn)的成果。

他們認為，「混合領(lǐng)域」預訓練？不就是遷移學(xué)習的另一種形式嗎？源領(lǐng)域是一般文本(如新聞)，目標領(lǐng)域是專(zhuān)門(mén)文本(如生物醫學(xué)論文)。

在此基礎上，針對特定領(lǐng)域的生物醫學(xué)NLP模型的預訓練總是優(yōu)于通用語(yǔ)言模型的預訓練，說(shuō)明「混合領(lǐng)域」預訓練并不完美。

神經(jīng)語(yǔ)言模型預訓練的兩種范式?！富旌项I(lǐng)域」預訓練（上）；只使用域內文本預訓練（下）

如此自信，研究人員是有證據的。他們通過(guò)對生物醫學(xué)NLP應用的影響，比較了訓練前的建模和特定任務(wù)的微調。

第一步，他們創(chuàng )建了一個(gè)名為生物醫學(xué)語(yǔ)言理解和推理基準(BLURB)的基準，該基準側重于PubMed（一個(gè)生物醫學(xué)相關(guān)的數據庫）提供的出版物，涵蓋了諸如關(guān)系提取、句子相似度和問(wèn)題回答等任務(wù)，以及諸如是/否問(wèn)題回答等分類(lèi)任務(wù)。為了計算總結性分數，BLURB中的語(yǔ)料庫按任務(wù)類(lèi)型分組，并分別打分,之后計算所有的平均值。

為了評估，他們又在最新的PubMed文檔中生成了一個(gè)詞匯表并訓練了一個(gè)模型：1400萬(wàn)篇摘要和32億個(gè)單詞，總計21GB。在一臺擁有16個(gè)V100顯卡的Nvidia DGX-2機器上，培訓了大約5天時(shí)間。這個(gè)模型具有62,500步長(cháng)和批量大小，可與以前生物醫學(xué)預訓練實(shí)驗中使用的計算量相媲美。

又一個(gè)自信，研究人員說(shuō)他們的模型——PubMedBERT，是建立在谷歌的BERT之上。

那個(gè)牛掰掰的BERT？Google 在 2018 年提出的一種 NLP 模型,成為最近幾年 NLP 領(lǐng)域最具有突破性的一項技術(shù)。

但有趣的是，將PubMed的全文添加到預訓練文本(168億字)中會(huì )讓性能略有下降，直到預訓練時(shí)間延長(cháng)。但研究人員將這部分歸因于數據中的噪聲。

“在本文中，我們挑戰了神經(jīng)語(yǔ)言預訓練模型中普遍存在的假設（就是前面說(shuō)的「混合領(lǐng)域」預訓練），并證明了從「無(wú)」開(kāi)始對特定領(lǐng)域進(jìn)行預訓練可以顯著(zhù)優(yōu)于「混合領(lǐng)域」預訓練?！笧樯镝t學(xué)NLP的應用帶來(lái)了新的、最先進(jìn)的結果，」研究人員寫(xiě)道，「我們未來(lái)會(huì )進(jìn)一步探索特定領(lǐng)域的預培訓策略，將BLURB基準擴展到臨床或其他高價(jià)值領(lǐng)域?！?/p>

為了鼓勵生物醫學(xué)NLP的研究，研究人員創(chuàng )建了一個(gè)以BLURB基準為特色的排行榜。他們還以開(kāi)源的方式發(fā)布了預先訓練過(guò)的特定任務(wù)模型。

研究已發(fā)布于預印論文網(wǎng)站arxiv上。

關(guān)鍵詞：微軟 NLP

評論

相關(guān)推薦

最新的無(wú)線(xiàn)充電技術(shù)，將來(lái)的無(wú)線(xiàn)充電應用

設計方案無(wú)線(xiàn)充電超聲波聚焦光線(xiàn) 微軟共 | 2015-07-14

Windows CE 開(kāi)發(fā)初步

資源下載微軟 Windows CE 無(wú)線(xiàn)裝置 | 2007-12-20

AI服務(wù)推動(dòng)業(yè)績(jì)大漲，微軟Q3營(yíng)收618.6億美元凈利219億

智能計算 AI 微軟財報 | 2024-04-26

微軟中國重布棋局“長(cháng)城計劃”一石三鳥(niǎo)

hpnet | 2002-08-06

以 Xbox 為靈感，Meta 將和微軟合作推出限量版 Quest 頭顯

消費電子 Xbox Meta 微軟 Quest 頭顯 | 2024-04-23

微軟用“互聯(lián)互通”的智能系統詮釋物聯(lián)網(wǎng)

設計方案微軟物聯(lián)網(wǎng) 智能 | 2015-09-22

決戰希臘：微軟“創(chuàng )新杯”2009實(shí)況-——軟件設計和嵌入式開(kāi)發(fā)項目組決賽4

視頻微軟嵌入式創(chuàng )新杯 | 2009-07-08

[轉帖]微軟正式在中國發(fā)布最新的嵌入式系統

amine | 2002-05-17

微軟usbsdk 開(kāi)發(fā)包

資源下載微軟 usbsdk 開(kāi)發(fā)包 | 2007-04-19

淺析藍牙技術(shù)

資源下載愛(ài)立信移動(dòng)通信公司藍牙特殊利益集團 3Com 朗訊（Lucent）微軟（Microsoft）摩托羅拉 | 2007-05-29

決戰希臘：微軟“創(chuàng )新杯”2009實(shí)況-——軟件設計和嵌入式開(kāi)發(fā)項目組決賽3

視頻微軟嵌入式創(chuàng )新杯 | 2009-07-08

微軟與可口可樂(lè )就云和生成式AI計劃達成5年合作協(xié)議

智能計算微軟可口可樂(lè ) 生成式AI | 2024-04-25

微軟2002嵌入式技術(shù)教育大會(huì )情況（4月11-12）北京(老站轉)

amine | 2002-05-16

服務(wù)器設備 – “一網(wǎng)打盡”的全面解決方案

資源下載微軟嵌入式 | 2010-11-29

哪位需要微軟嵌入式大會(huì )的講義請舉手.

jackwang | 2002-05-16

比爾·蓋茨在微軟的最后一天——蓋茨攜好萊塢巨星出演搞笑片

視頻微軟比爾·蓋茨 CES | 2008-07-09

微軟計劃為客戶(hù)提供AMD旗艦AI芯片方案

智能計算微軟 AMD AI 芯片 | 2024-05-20

微軟正在培訓一個(gè)新的內部AI語(yǔ)言模型，規模足以與谷歌的Alphabet（GOOGL.O）和OpenAI競爭

智能計算 AI 微軟大模型 | 2024-05-07

決戰希臘：微軟“創(chuàng )新杯”2009實(shí)況-——軟件設計和嵌入式開(kāi)發(fā)項目組決賽2

視頻微軟嵌入式創(chuàng )新杯 | 2009-07-07

高校擁抱微軟AIGC 研華攜手微軟，鳳凰教育構建智能未來(lái)

嵌入式系統 AIGC 鳳凰教育微軟研華 | 2024-05-10

微軟宣布AI投資計劃，將斥資33億美元投建數據中心

智能計算微軟 AI 數據中心 | 2024-05-09

決戰希臘：微軟“創(chuàng )新杯”2009實(shí)況-——軟件設計和嵌入式開(kāi)發(fā)項目組決賽1

視頻微軟嵌入式創(chuàng )新杯 | 2009-07-07

微軟嵌入式技術(shù)教育大會(huì )專(zhuān)訪(fǎng)實(shí)錄(老站轉)

amine | 2002-05-16

69歲蓋茨未離場(chǎng)！美媒揭秘他如何在幕后操盤(pán)微軟AI

智能計算蓋茨微軟 AI | 2024-04-30

AI賽道，馬力全開(kāi)！

智能計算 AI 微軟蘋(píng)果三星 | 2024-05-10

微軟押注ARM架構，“Wintel”聯(lián)盟搖搖欲墜？

微軟 ARM x86 架構 Wintel AI PC 英特爾 | 2024-04-18

智領(lǐng)未來(lái)——嵌入式Windows 8全新功能概覽

資源下載微軟嵌入式 Windows Embedded Windows CE 數字標牌金融醫療 EEPW會(huì )展 | 2012-11-01

微軟車(chē)載系統將整合小娜司機可用語(yǔ)音對汽車(chē)發(fā)號施令

設計方案微軟車(chē)載系統小娜 | 2015-11-03

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>