<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > ACL 2021 | 百度NLP開(kāi)源語(yǔ)言與視覺(jué)一體的統一模態(tài)預訓練方法,登頂各類(lèi)榜單

ACL 2021 | 百度NLP開(kāi)源語(yǔ)言與視覺(jué)一體的統一模態(tài)預訓練方法,登頂各類(lèi)榜單

發(fā)布人:機器之心 時(shí)間:2021-08-15 來(lái)源:工程師 發(fā)布文章

百度首創(chuàng )地提出了語(yǔ)言與視覺(jué)一體的預訓練方法 UNIMO,提供了一種新的統一模態(tài)學(xué)習范式,打破了文本、圖像和圖文對等數據間的邊界,讓機器可以像人一樣利用大規模異構模態(tài)數據,學(xué)習語(yǔ)言知識與視覺(jué)知識并相互增強,從而實(shí)現感知與認知一體的通用 AI 能力。

百度在 2021 年深度學(xué)習開(kāi)發(fā)者峰會(huì ) WAVE SUMMIT 上開(kāi)源了語(yǔ)言與視覺(jué)一體的預訓練模型 ERNIE-UNIMO,其核心方法 UNIMO 已經(jīng)被 NLP 頂級會(huì )議 ACL 2021 主會(huì )正式錄用為 oral 長(cháng)文。

在機器之心 7 月 31 日舉辦的 ACL 2021 論文分享會(huì )上,本文第一作者李偉詳細介紹了他們的這項研究成果,感興趣的同學(xué)可以點(diǎn)擊閱讀原文查看回顧視頻。

AI 系統能否像人一樣,使用一個(gè)統一的大腦模型,實(shí)現感知認知一體的通用能力?基于此出發(fā)點(diǎn),百度提出的 UNIMO 試圖構建面向各種不同模態(tài)的統一預訓練模型。

1.png

論文地址:https://arxiv.org/abs/2012.15409

代碼地址:https://github.com/PaddlePaddle/ERNIE/tree/develop/ernie-unimo

此方法首創(chuàng )的同時(shí)還能學(xué)習大量的文本、圖像、圖文對數據,通過(guò)跨模態(tài)對比學(xué)習,有效的讓語(yǔ)言知識與視覺(jué)知識進(jìn)行統一表示和相互增強。UNIMO 在語(yǔ)言理解與生成、跨模態(tài)理解與生成,4 類(lèi)場(chǎng)景共 13 個(gè)任務(wù)上超越主流的文本預訓練模型和跨模態(tài)預訓練模型,同時(shí)登頂視覺(jué)問(wèn)答榜單 VQA、文本推理榜單 aNLI 等權威榜單,首次驗證了通過(guò)非平行的文本與圖像等單一模態(tài)數據,能夠讓語(yǔ)言知識與視覺(jué)知識相互增強。目前 UNIMO 已經(jīng)逐步在百度的產(chǎn)品中落地應用。

2.png

UNIMO 方法介紹

大數據是深度學(xué)習取得成功的關(guān)鍵基礎之一。根據應用數據的模態(tài)不同,深度學(xué)習應用領(lǐng)域大體包括:在文本數據上進(jìn)行自然語(yǔ)言處理,在視覺(jué)數據上進(jìn)行視覺(jué)應用,在圖文數據上進(jìn)行跨模態(tài)應用。顯然,人類(lèi)大腦對各種模態(tài)數據的學(xué)習并非獨立的,比如,人類(lèi)大腦在看到圖片之后能夠自動(dòng)聯(lián)想到相關(guān)的語(yǔ)言知識,反之亦然。對各種模態(tài)數據的融會(huì )貫通,使得人類(lèi)能夠充分學(xué)習各類(lèi)語(yǔ)言、視覺(jué)、語(yǔ)音知識并相互增強,通過(guò)統一的模型展現出強大的智能水平。那么,基于深度學(xué)習的 AI 系統是否也能像人一樣同時(shí)學(xué)習異構模態(tài)數據呢?如果能夠實(shí)現,無(wú)疑將進(jìn)一步打開(kāi)深度學(xué)習對大規模數據利用的邊界,從而進(jìn)一步提升 AI 系統的感知與認知一體的通用 AI 能力。

為此,百度提出面向異構模態(tài)數據的統一預訓練方法 UNIMO,同時(shí)使用文本、圖像和圖文對數據進(jìn)行訓練,學(xué)習文本和圖像的統一語(yǔ)義表示,從而具備同時(shí)處理多種單一模態(tài)和跨模態(tài)下游任務(wù)的能力。UNIMO 的核心模塊是一個(gè) Transformer 網(wǎng)絡(luò ),在具體訓練過(guò)程中,文本、圖像和圖文對三種模態(tài)數據隨機混合在一起,其中圖像被轉換為目標(object)序列,文本被轉換為詞(token)序列,圖文對被轉換為目標序列和詞序列的拼接。UNIMO 對三種類(lèi)型數據進(jìn)行統一處理,在目標序列或者詞序列上基于掩碼預測進(jìn)行自監督學(xué)習,并且基于圖文對數據進(jìn)行跨模態(tài)對比學(xué)習,從而實(shí)現圖像與文本的統一表示學(xué)習。進(jìn)一步的,這種聯(lián)合學(xué)習方法也讓文本知識和視覺(jué)知識互相增強,從而有效提升文本語(yǔ)義表示和視覺(jué)語(yǔ)義表示的能力。

3.png

異構模態(tài)的統一預訓練最大的挑戰是如何跨越不同模態(tài)間的語(yǔ)義鴻溝從而實(shí)現語(yǔ)義表示的統一。如下圖所示,UNIMO 提出了創(chuàng )新的跨模態(tài)對比學(xué)習方法,同時(shí)引入相關(guān)聯(lián)的圖文對數據、文本數據和圖像數據進(jìn)行聯(lián)合對比學(xué)習。具體地,UNIMO 通過(guò)文本改寫(xiě)的方式,對圖文對進(jìn)行數據增廣,獲得大量的正例和強負例圖文對數據。同時(shí)為了更好的利用文本和圖像數據,UNIMO 通過(guò)文本與圖像檢索,獲得相關(guān)的圖像和文本作為正例。這樣利用擴充后的多種類(lèi)型的正例以及高質(zhì)量強負例,UNIMO 在統一的語(yǔ)義空間上進(jìn)行聯(lián)想對比,從而能夠學(xué)習到精確對齊的跨模態(tài)語(yǔ)義表示。

4.png

UNIMO 實(shí)驗結果

在實(shí)驗方面,UNIMO 使用了大量的文本、圖像和圖文數據進(jìn)行聯(lián)合學(xué)習,同時(shí)在各種單一模態(tài)和跨模態(tài)下游任務(wù)上進(jìn)行驗證。預訓練數據部分,文本語(yǔ)料包括 Wikipedia、BookCorpus、OpenWebText 等共 54G 語(yǔ)料;圖像數據是從互聯(lián)網(wǎng)爬取的 170 萬(wàn)張圖像;而圖文對數據則包括 COCO Caption、Visual Genome、Conceptual Caption、SBU Caption。下游任務(wù)既包括圖文搜索、視覺(jué)問(wèn)答、圖描述生成、視覺(jué)推斷等跨模態(tài)任務(wù),也包括文本分類(lèi)、閱讀理解、文本摘要、問(wèn)題生成等各種文本任務(wù)。模型上,Base 基于 12 層的 Transformer,而 Large 使用 24 層。

在跨模態(tài)任務(wù)上,論文主要對比 ViLBERT、UNITER、Oscar、Villa 等最新的跨模態(tài)預訓練模型。實(shí)驗結果表明,UNIMO 在圖文檢索 Flick、視覺(jué)推斷 SNLI-VE、視覺(jué)問(wèn)答 VQA、圖描述生成 CoCo Caption 上均穩定地超過(guò)此前的各種預訓練模型,充分說(shuō)明了統一預訓練 UNIMO 模型能夠有效地處理各種跨模態(tài)任務(wù)。

5.png

特別地,UNIMO 同時(shí)還能處理純文本任務(wù)。此前的跨模態(tài)預訓練模型,在處理純文本任務(wù)的時(shí)候效果急劇下降,部分任務(wù)下降幅度甚至超過(guò) 10-20 個(gè)點(diǎn)。而 UNIMO 在各類(lèi)文本理解和生成任務(wù)上,包括文本分類(lèi)、文本推斷、文本摘要、閱讀理解和問(wèn)題生成,均取得不錯的效果,超過(guò) RoBERTa、XLNet、UniLM 等經(jīng)典文本模型。

6.png

為了驗證 UNIMO 進(jìn)行單一模態(tài)和跨模態(tài)統一學(xué)習的必要性,論文進(jìn)行了分離實(shí)驗。實(shí)驗結果表明,當不使用文本數據進(jìn)行預訓練的時(shí)候,UNIMO 在跨模態(tài)任務(wù)上效果有所下降。而當不使用圖文對數據和圖像數據的時(shí)候,UNIMO 在文本任務(wù)上同樣會(huì )下降。這充分說(shuō)明,UNIMO 統一學(xué)習的方式,能夠讓文本知識與視覺(jué)知識相互增強,有效提升任務(wù)效果。

7.png8.png

UNIMO 應用

UNIMO 可以支持各類(lèi)文本與跨模態(tài)任務(wù),既可以支持以文搜圖和以圖搜文,也能支持根據圖片生成文字描述、根據文字描述自動(dòng)生成圖片,還支持對圖片內容進(jìn)行問(wèn)答。當然,UNIMO 也支持純語(yǔ)言的任務(wù),如文本推理、閱讀理解、文本生成等。從實(shí)際應用任務(wù)的結果來(lái)看,研究發(fā)現 UNIMO 能夠讓視覺(jué)和語(yǔ)言互相增強,從而實(shí)現更好的應用效果。目前部分技術(shù)已經(jīng)開(kāi)始在百度搜索中落地,幫助用戶(hù)獲取更符合需求的圖片、視頻。這里看下實(shí)際任務(wù)上的樣例效果。

跨模態(tài)檢索:以文搜圖、以圖搜文

UNIMO 能夠根據文字描述搜索相關(guān)圖片,或者根據圖片搜索相關(guān)文本描述。從結果上看,UNIMO 能夠更準確的理解文字或圖片的語(yǔ)義,檢索出更匹配的圖片或文字。

9.png

跨模態(tài)問(wèn)答:

UNIMO 也支持使用自然語(yǔ)言對圖片內容進(jìn)行提問(wèn)。UNIMO 能理解圖片中的內容和概念,并結合模型學(xué)習到的背景知識,準確的進(jìn)行推理回答。

10.png

跨模態(tài)生成:根據文字生成圖片

UNIMO 能夠根據文字描述生成對應的圖片。從結果中,我們可以發(fā)現 UNIMO 能夠很好的對齊視覺(jué)和語(yǔ)言的屬性和概念,從而生成準確清晰的圖片。

11.png

百度首創(chuàng )地提出了語(yǔ)言與視覺(jué)一體的預訓練方法 UNIMO,提供了一種新的統一模態(tài)學(xué)習范式,打破了文本、圖像和圖文對等數據間的邊界,讓機器可以像人一樣利用大規模異構模態(tài)數據,學(xué)習語(yǔ)言知識與視覺(jué)知識并相互增強,從而實(shí)現感知與認知一體的通用 AI 能力?;蛟S,異構模態(tài)的統一學(xué)習是邁向通用人工智能的關(guān)鍵節點(diǎn)之一。未來(lái)百度將在統一模態(tài)學(xué)習上做出更多工作和應用,敬請期待。

*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。

電度表相關(guān)文章:電度表原理




關(guān)鍵詞: 深度學(xué)習

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>