<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 單GPU每秒76幀,重疊對象也能完美分割,多模態(tài)Transformer用于視頻分割效果驚艷

單GPU每秒76幀,重疊對象也能完美分割,多模態(tài)Transformer用于視頻分割效果驚艷

發(fā)布人:機器之心 時(shí)間:2022-03-08 來(lái)源:工程師 發(fā)布文章

視頻分割效果優(yōu)于所有現有方法,這篇入選CVPR 2022的論文是用Transformer解決CV任務(wù)的又一典范。


基于注意力的深度神經(jīng)網(wǎng)絡(luò )(DNN)在NLP和CV等不同領(lǐng)域的各種任務(wù)上都表現出了卓越的性能。這些進(jìn)展使得此類(lèi)網(wǎng)絡(luò )(如 Transformer)成為解決多模態(tài)問(wèn)題的有力候選。特別是近一兩年,Transformer 模型已經(jīng)開(kāi)始在CV任務(wù)上大展手腳,從目標識別到檢測,效果優(yōu)于通用的CNN視覺(jué)骨干網(wǎng)絡(luò )。

參考視頻對象分割(referring video object segmentation, RVOS)任務(wù)涉及到給定視頻幀中文本參考對象實(shí)例的分割。相比之下,在得到更廣泛研究的參考圖像分割(referring image segmention, RIS)任務(wù)中,對象主要通過(guò)它們的外觀(guān)進(jìn)行參考。在RVOS中,對象可以通過(guò)它們正在執行或參與的動(dòng)作進(jìn)行參考。這使得 RVOS比RIS復雜得多,因為參考動(dòng)作的文本表達通常無(wú)法從單個(gè)靜態(tài)幀中推導出來(lái)。

此外,與基于圖像的 RIS 不同,RVOS 方法可能還需要跨多個(gè)幀(即跟蹤)來(lái)建立參考對象的數據關(guān)聯(lián),以處理遮擋或運動(dòng)模糊這類(lèi)的干擾。

為了解決這些挑戰,現有 RVOS 方法往往依賴(lài)復雜的 pipeline。在被CVPR 2022接收的一篇論文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中,來(lái)自以色列理工學(xué)院的研究者提出了一種簡(jiǎn)單的、基于Transformer的端到端RVOS方法——Multimodal Tracking Transformer(MTTR )。

圖片
論文地址:https://arxiv.org/pdf/2111.14821.pdf
項目地址:https://github.com/mttr2021/MTTR
Huggingface Spaces Gradio demo:https://huggingface.co/spaces/akhaliq/MTTR

具體地,他們使用MTTR 將任務(wù)建模成序列預測問(wèn)題。給定一個(gè)視頻和文本查詢(xún),該模型在確定文本參考的對象之前為視頻中所有對象生成預測序列。并且,他們的方法不需要與文本相關(guān)的歸納偏置模塊,利用簡(jiǎn)單的交叉熵損失對齊視頻和文本。因此,該方法相比以往簡(jiǎn)單的多。

研究者提出的pipeline示意圖如下所示。首先使用標準的Transformer文本編碼器從文本查詢(xún)中提取語(yǔ)言特征,使用時(shí)空編碼器從視頻幀中提取視覺(jué)特征。接著(zhù)將這些特征傳遞給多模態(tài) Transformer 以輸出幾個(gè)對象預測序列。然后為了確定哪個(gè)預測序列能夠最好地對應參考對象,研究者計算了每個(gè)序列的文本參考分數。為此,他們還提出了一種時(shí)序分割voting方案,使模型在做出決策時(shí)專(zhuān)注于最相關(guān)的部分。

圖片

從實(shí)驗結果來(lái)看,MTTR 在 A2D-Sentences 和 JHMDB-Sentences 數據集上分別實(shí)現了+5.7和+5.0的mAP增益,同時(shí)每秒能夠處理76幀。

研究者還展示了一系列不同對象之間的實(shí)際分割效果,如下穿白色T恤和藍色短褲的沖浪者(淡黃色沖浪板)。

圖片


又如嬉戲玩鬧的大小猩猩。

圖片


網(wǎng)友對這項研究展示的視頻對象分割效果贊不絕口。有人表示,即使在重疊的對象上,分割效果也很有效。

圖片


方法介紹


任務(wù)定義。RVOS 的輸入為幀序列
圖片,其中圖片;文本查詢(xún)?yōu)?/span>圖片,這里t_i是文本中的第i個(gè)單詞;大小為圖片的感興趣幀的子集為圖片,目標是在每一幀圖片中分割對象圖片。

特征提取。該研究首先使用深度時(shí)空編碼器從序列 V 中的每一幀中提取特征。同時(shí)使用基于 Transformer 的文本編碼器從文本查詢(xún) T 中提取語(yǔ)言特征。然后,將空間-時(shí)間和語(yǔ)言特征線(xiàn)性投影到共享維度 D。

實(shí)例預測。之后,感興趣的幀特征被平化(flattened)并與文本嵌入分開(kāi)連接,產(chǎn)生一組T_I多模態(tài)序列,這些序列被并行饋送到 Transformer。在 Transformer 的編碼器層中,文本嵌入和每幀的視覺(jué)特征交換信息。然后,****層對每個(gè)輸入幀提供N_q對象查詢(xún),查詢(xún)與實(shí)體相關(guān)的多模態(tài)序列,并將其存儲在對象查詢(xún)中。該研究將這些查詢(xún)(在圖 1 和圖 2 中由相同的唯一顏色和形狀表示)稱(chēng)為屬于同一實(shí)例序列的查詢(xún)。這種設計允許自然跟蹤視頻中的每個(gè)對象實(shí)例。

輸出生成。Transformer 輸出的每個(gè)實(shí)例序列,將會(huì )生成一個(gè)對應的掩碼序列。為了實(shí)現這一點(diǎn),該研究使用了類(lèi)似 FPN 的空間****和動(dòng)態(tài)生成的條件卷積核。最后,該研究使用文本參考評分函數(text-reference score function),該函數基于掩碼和文本關(guān)聯(lián),以確定哪個(gè)對象查詢(xún)序列與 T 中描述的對象具有最強的關(guān)聯(lián),并將其分割序列作為模型的預測返回。

時(shí)間編碼器。適合 RVOS 任務(wù)的時(shí)間編碼器應該能夠為視頻中的每個(gè)實(shí)例提取視覺(jué)特征(例如,形狀、大小、位置)和動(dòng)作語(yǔ)義。相比之下,該研究使用端到端方法,不需要任何額外的掩碼細化步驟,并使用單個(gè)主干就可完成。最近,研究者提出了 Video Swin Transformer [27] 作為 Swin Transformer 對視頻領(lǐng)域的泛化。最初的 Swin 在設計時(shí)考慮了密集預測(例如分割), Video Swin 在動(dòng)作識別基準上進(jìn)行了大量測試。

據了解,該研究是第一個(gè)使用Video Swin (稍作修改)進(jìn)行視頻分割的。與 I3D 不同,Video Swin 僅包含一個(gè)時(shí)間下采樣層,并且研究者可以輕松修改以輸出每幀特征圖。因此,Video Swin是處理完整的連續視頻幀序列以進(jìn)行分割的更好選擇。

實(shí)例分割過(guò)程


實(shí)例分割過(guò)程如圖 2 所示。

圖片

首先,給定 F_E,即最后一個(gè) Transformer 編碼器層輸出的更新后的多模態(tài)序列,該研究提取每個(gè)序列的視頻相關(guān)部分(即第一個(gè) H × W token)并重塑為集合圖片。然后,該研究采用時(shí)間編碼器的前 n ? 1 個(gè)塊的輸出圖片,并使用類(lèi)似 FPN 的 [21] 空間**** G_Seg 將它們與圖片分層融合。這個(gè)過(guò)程產(chǎn)生了視頻幀的語(yǔ)義豐富、高分辨率的特征圖,表示為 F_Seg。

圖片 
接下來(lái),對于 Transformer ****輸出的每個(gè)實(shí)例序列
圖片,該研究使用兩層感知器 G_kernel 生成相應的條件分割核序列。

圖片

最后,通過(guò)將每個(gè)分割核與其對應的幀特征進(jìn)行卷積,為
圖片生成一系列分割掩碼 M,然后進(jìn)行雙線(xiàn)性上采樣操作以將掩碼大小調整為真實(shí)分辨率
圖片


實(shí)驗


該研究在A(yíng)2D-Sentences數據集上將MTTR與SOAT方法進(jìn)行比較。結果如表 1所示,該方法在所有指標上都顯著(zhù)優(yōu)于所有現有方法。

例如,該模型比當前SOTA模型提高了 4.3 mAP ,這證明了MTTR能夠生成高質(zhì)量的掩碼。該研究還注意到,與當前SOTA技術(shù)相比,頂級配置(w = 10)的MTTR實(shí)現了 5.7 的 mAP 提高和 6.7% 的平均 IoU 和總體 IoU 的絕對改進(jìn)。值得一提的是,這種配置能夠在單個(gè) RTX 3090 GPU 上每秒處理 76 幀的同時(shí)做到這一點(diǎn)。

圖片

按照之前的方法 [11, 24],該研究通過(guò)在沒(méi)有微調的 JHMDBSentences 上評估模型的泛化能力。該研究從每個(gè)視頻中統一采樣三幀,并在這些幀上評估模型。如表2所示,MTTR方法具有很好的泛化性并且優(yōu)于所有現有方法。

圖片 
表3報告了在Refer-YouTube-VOS公共驗證集上的結果。與現有方法[24,37]相比,這些方法是在完整數據集上進(jìn)行訓練和評估的,盡管該研究模型在較少的數據上進(jìn)行訓練,并專(zhuān)門(mén)在一個(gè)更具挑戰性的子集上進(jìn)行評估,但MTTR在所有指標上都表現出了卓越的性能。

圖片

如圖 3 所示,MTTR 可以成功地跟蹤和分割文本參考對象,即使在具有挑戰性的情況下,它們被類(lèi)似實(shí)例包圍、被遮擋或在視頻的廣泛部分中完全超出相機的視野。

圖片
參考鏈接:https://www.reddit.com/r/MachineLearning/comments/t7qe6b/r_endtoend_referring_video_object_segmentation/



*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。

塵埃粒子計數器相關(guān)文章:塵埃粒子計數器原理


關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>