<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > NeurIPS'22|Hinton團隊開(kāi)源:用一個(gè)統一的接口處理四大視覺(jué)任務(wù)

NeurIPS'22|Hinton團隊開(kāi)源:用一個(gè)統一的接口處理四大視覺(jué)任務(wù)

發(fā)布人:AI科技大本營(yíng) 時(shí)間:2023-02-21 來(lái)源:工程師 發(fā)布文章

圖片


論文鏈接:https://arxiv.org/pdf/2206.07669v2.pdf源碼鏈接:https://github.com/google-research/pix2seq
簡(jiǎn)介


訓練能夠執行無(wú)數個(gè)任務(wù)的單個(gè)神經(jīng)網(wǎng)絡(luò )模型是邁向通用人工智能的重要一步。在NLP領(lǐng)域,許多NLP相關(guān)任務(wù)都可以統一在大型語(yǔ)言模型下進(jìn)行。主要原因是這些任務(wù)可以用相同的界面表示。而相似的方法目前在計算機視覺(jué)只能用于圖像描述和圖像問(wèn)答任務(wù),主要是因為輸出是自然語(yǔ)言形式的,主題的計算機詩(shī)句任務(wù)有不同的輸出,不能像NLP有類(lèi)似的表示。
本文提出了一種將四個(gè)看似不同的視覺(jué)任務(wù)(目標檢測,實(shí)例分割,關(guān)鍵點(diǎn)檢測,圖像描述)統一在單個(gè)像素到序列界面中的方法。本文方法是對在目標檢測任務(wù)中使用的Pix2Seq模型到一系列任務(wù)的擴展。
本文框架


令牌化的統一接口


一般認為不同的計算機視覺(jué)輸出是完全不同的。比如本文關(guān)注的四個(gè)任務(wù):目標檢測任務(wù)需要模型產(chǎn)生對所有物體的包圍框,且沒(méi)有重復。實(shí)例分割任務(wù)需要模型產(chǎn)生對每一個(gè)物體的密集像素掩碼。人體關(guān)鍵點(diǎn)檢測需要模型生成與人體部位上的標志的特定位置相對應的點(diǎn)。圖像描述需要模型產(chǎn)生與圖像對應的自然語(yǔ)言描述。
本文方法提出一種對于四個(gè)關(guān)注任務(wù)的序列接口,即所有任務(wù)的描述和輸出都表示為若干離散令牌組成的序列。
  • 目標檢測:一個(gè)物體由五個(gè)離散令牌表示,。每次訓練樣本時(shí)多個(gè)物體隨機采樣序列化后形成最終令牌。
  • 實(shí)例分割:這里預測實(shí)例掩碼的多邊形描述,并將多邊形描述為一序列的坐標,并將坐標轉為離散令牌。這里每次采樣訓練圖片對應的開(kāi)始點(diǎn)的開(kāi)始令牌是隨機的。如果存在相同實(shí)例的多個(gè)多邊形,通過(guò)一個(gè)分割令牌聚集每個(gè)多邊形的表示序列。
  • 關(guān)鍵點(diǎn)檢測:類(lèi)似地,這里也是用一系列坐標表示關(guān)鍵點(diǎn)檢測結果,。這里為了簡(jiǎn)潔省略了關(guān)鍵點(diǎn)類(lèi)別標簽。如果某個(gè)關(guān)鍵點(diǎn)被遮擋,相應的坐標令牌被一個(gè)特別的令牌取代。
  • 圖像描述:直接預測離散的文本令牌。

統一的架構和損失函數


這里使用常用的encoder-decoder架構,包括一個(gè)圖像編碼器和一個(gè)序列****。圖像編碼器接收像素信息映射到隱藏的表示,一般用CNN,Transformer或組合架構。
與Pix2Seq方法只關(guān)注單一任務(wù)不同的是,****以一個(gè)任務(wù)的prompt為條件,直接為單個(gè)目標檢測任務(wù)產(chǎn)生輸出token,以便模型可以產(chǎn)生適應于關(guān)注任務(wù)的輸出。在訓練期間,模型將prompt和期望的輸出連接到單個(gè)序列中,利用token加權方案確保****只被訓練來(lái)預測期望的輸出,而不是prompt令牌。在推理過(guò)程中,prompt是給定的,并且是固定的,所以****只需要產(chǎn)生序列的其余部分。類(lèi)似于Pix2Seq方法,訓練目標是最大化基于圖像的令牌和之前的令牌的似然性。
多個(gè)任務(wù)的訓練


這里給出兩種不同任務(wù)訓練數據合并的方法:
  1. 數據混合。合并不同任務(wù)的圖像和相應輸出序列。優(yōu)點(diǎn)是構建很簡(jiǎn)單,但很難加入圖像增廣。
  2. 批混合。采樣不同任務(wù)的圖像,經(jīng)適合當前任務(wù)的增廣處理,合并令牌化的輸出序列得到圖像-序列對。這種方法可以獨立地為了一個(gè)任務(wù)計算損失和梯度,并以合適的權重融合不同任務(wù)的梯度。

本文方法考慮使用批混合策略。
推斷


在推理階段,在序列的開(kāi)頭給出一個(gè)prompt,然后從模型的似然分布中采樣令牌。令牌得到后就可以為每個(gè)任務(wù)解碼。
實(shí)驗


表1給出了實(shí)驗結果。比較的模型包括:?jiǎn)我荒P停耗P陀孟嗤募軜嫼蛽p失函數在單一任務(wù)上訓練,每個(gè)任務(wù)有自己的網(wǎng)絡(luò )權重。多任務(wù)模型:?jiǎn)我坏木W(wǎng)絡(luò )權重用于全部四個(gè)任務(wù)。結果表明本文方法可以在每一個(gè)任務(wù)上與baseline相比都能取得有競爭力的結果(甚至是較小圖像尺寸輸入條件下)。
圖片
圖4給出了如何選擇合適的各任務(wù)損失函數加權系數。這里使用貪心策略。圖4(a)給出了搜素目標檢測與實(shí)例分割間權重比例的搜索結果??梢钥闯鲈谝粋€(gè)較廣的范圍內,兩個(gè)任務(wù)的性能都接近峰值。之后實(shí)驗簡(jiǎn)單選擇2:8的權重比例。加入圖像描述任務(wù)后,在9:1的權重比例下是對當前任務(wù)是較合適的。加入關(guān)鍵點(diǎn)檢測后發(fā)現權重能設置的較小,這里選擇為0.01。
圖片
部分圖片可視化結果:
圖片圖片圖片


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>