CVPR2021提出的一些新數據集匯總
作者:Shwetank Panwar
編譯:CV技術(shù)指南
一些新發(fā)布的數據集可以提供一個(gè)窗口,通過(guò)這些數據集可以了解試圖解決的問(wèn)題的復雜程度。公共領(lǐng)域中新發(fā)布的數據集可以很好地代表理解計算機視覺(jué)的發(fā)展以及有待解決的問(wèn)題的新途徑。
本文簡(jiǎn)要總結了一些CVPR 2021 上發(fā)表的數據集論文,并通讀了論文以提取一些重要的細節。
1. The Multi-Temporal Urban Development SpaceNet Dataset
數據集論文:https://paperswithcode.com/paper/the-multi-temporal-urban-development-spacenet
下載地址:https://registry.opendata.aws/spacenet/
新的 SpaceNet 數據集包含每個(gè)月拍攝的建筑區域的衛星圖像。目標是在空間時(shí)間序列的幫助下在全球范圍內跟蹤這種建筑活動(dòng)。
由于其解決非常困難的全局問(wèn)題的方法,這是 CVPR 中最有趣的數據集論文。該數據集試圖使用衛星圖像分析解決量化一個(gè)地區城市化的問(wèn)題,這對于沒(méi)有基礎設施和財政資源來(lái)建立有效的民事登記系統的國家來(lái)說(shuō)是一個(gè)巨大的幫助。
該數據集主要是關(guān)于使用在 18 到 26 個(gè)月的時(shí)間跨度內捕獲的衛星圖像跟蹤世界各地大約 101 個(gè)地點(diǎn)的建筑。隨著(zhù)時(shí)間的推移,有超過(guò) 1100 萬(wàn)條注釋帶有單個(gè)建筑物和施工現場(chǎng)的獨特像素級標簽。
A.) 與 COCO 數據集對象相比,帶注釋的對象的大小非常小 B.) 在此數據集中,每張圖像的標簽數量太高。C.) 像云這樣的遮擋(這里)會(huì )使跟蹤探測變得困難。D.) Spacenet 數據集中單個(gè)圖像中的帶注釋對象。
所有這些可能使它聽(tīng)起來(lái)像是一個(gè)更具挑戰性的對象分割和跟蹤問(wèn)題。為了清楚起見(jiàn),每幀大約有 30 多個(gè)對象。此外,與普通視頻數據不同,由于天氣、光照和地面季節性影響等原因,幀之間幾乎沒(méi)有一致性。這使得它比視頻分類(lèi)數據集(如 MOT17 和斯坦福無(wú)人機數據集)更加困難。
雖然這可能是一個(gè)難題,但解決它對于全球福利來(lái)說(shuō)是值得的。
2. Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset, Benchmarks and Challenges
數據集論文:https://arxiv.org/abs/2009.03137
下載地址:
https://github.com/QingyongHu/SensatUrban
Sensat Urban 數據集的整體圖,包括英國約克市的連續區域,擴展到 3 平方公里。
今年的會(huì )議重點(diǎn)討論了 3D 圖像處理及其相應的方法。因此,這個(gè)名為 Sensat Urban 的數據集也不足為奇,只是這個(gè)攝影測量 3D 點(diǎn)云數據集比迄今為止可用的任何開(kāi)源數據集都要大。它覆蓋超過(guò)7.6公里。涵蓋約克、劍橋和伯明翰的城市景觀(guān)廣場(chǎng)。每個(gè)點(diǎn)云都被標記為 13 個(gè)語(yǔ)義類(lèi)之一。
該數據集有可能推動(dòng)許多有前途的領(lǐng)域的研究,如自動(dòng)化區域測量、智慧城市和大型基礎設施規劃和管理。
圖片
Sensat Urban 數據集中的不同分割類(lèi)別。
在論文中,他們還對點(diǎn)云中的顏色信息進(jìn)行了實(shí)驗,并證明了在色彩豐富的點(diǎn)云上訓練的神經(jīng)網(wǎng)絡(luò )能夠在測試集上更好地泛化。這實(shí)際上為該領(lǐng)域未來(lái)應用的發(fā)展提供了重要方向。
3.Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions
數據集論文:https://arxiv.org/abs/2105.04489
來(lái)自 MIT 音頻字幕數據集的一些樣本 [左] 在數據集中結合視聽(tīng)信息的提議架構 [右]
這是今年另一個(gè)最受歡迎的數據集,因為它對圖像字幕和視頻摘要問(wèn)題采用了略有不同的方法。通常,對于此類(lèi)任務(wù),我們有像 COCO 這樣的數據集,其中包含圖像及其隨附的文本標題。雖然這種方法已被證明是有前途的,但我們經(jīng)常忘記,在口語(yǔ)方面對我們的視覺(jué)體驗進(jìn)行了很多豐富的總結。
該數據集構建了一個(gè)包含 50 萬(wàn)個(gè)描述各種不同事件的短視頻音頻描述的語(yǔ)料庫。然而,他們并沒(méi)有止步于展示一個(gè)很棒的數據集,他們還提供了一個(gè)優(yōu)雅的解決方案來(lái)使用自適應平均邊距(AMM)方法來(lái)解決視頻/字幕檢索問(wèn)題。
4.Conceptual 12M : Pushing Web-Scale Image-Text Pre-training to recognise Long-Tail visual concepts
數據集論文:https://arxiv.org/abs/2102.08981
圖片
來(lái)自Conceptual 12M 數據集的一些圖像標題對。雖然 alt-text 本身的信息量并不大,但它對于學(xué)習視覺(jué)概念的更廣義的文本表示非常有幫助。
最近,由于預訓練transformer和 CNN 架構的性能提升,模型預訓練獲得了極大的歡迎。通常,我們希望在一個(gè)類(lèi)似的數據集上訓練模型。然后使用遷移學(xué)習在下游任務(wù)上利用模型。
到目前為止,唯一可用的用于預訓練的大規模數據集是用于視覺(jué)+語(yǔ)言任務(wù)的 CC-3M 數據集,有 300 萬(wàn)個(gè)字幕?,F在,谷歌研究團隊通過(guò)放寬數據抓取的限制,將該數據集擴展到 1200 萬(wàn)個(gè)圖像字幕對--Conceptual 12M。
更有趣的是生成數據集的方法。在數據集管理期間使用 Google Cloud Natural Language API 和 Google Cloud Vision API 過(guò)濾任務(wù)對于任何未來(lái)的數據集管理任務(wù)來(lái)說(shuō)都是一個(gè)很好的教訓。
使用 12M 數據集,圖像字幕模型能夠學(xué)習長(cháng)尾概念,即數據集中非常具體且罕見(jiàn)的概念。訓練方法的結果令人印象深刻,并在下面進(jìn)行了可視化。
在概念 12M 數據集上預訓練的神經(jīng)圖像標題模型的預測示例很少。
5. Euro-PVI:密集城市中心的行人車(chē)輛交互
數據集論文:
https://openaccess.thecvf.com/content/CVPR2021/supplemental/Bhattacharyya_Euro-PVI_Pedestrian_Vehicle_CVPR_2021_supplemental.pdf
實(shí)時(shí)車(chē)輛-行人行為示例。預測行人將采取什么樣的軌跡來(lái)響應接近的車(chē)輛對于構建全自動(dòng)自動(dòng)駕駛汽車(chē)至關(guān)重要。
雖然有很多關(guān)于完全自主的自動(dòng)駕駛系統的討論,但事實(shí)仍然是,它是一個(gè)非常困難的問(wèn)題,需要同時(shí)實(shí)時(shí)解決多個(gè)問(wèn)題。關(guān)鍵部分之一是使這些自主系統了解行人對其存在的反應,在密集環(huán)境中預測行人軌跡是一項具有挑戰性的任務(wù)。
因此,Euro-PVI 數據集旨在通過(guò)在行人和騎自行車(chē)者軌跡的標記數據集上訓練模型來(lái)解決這個(gè)問(wèn)題。早些時(shí)候,斯坦福無(wú)人機、nuScenes 和 Lyft L5 等數據集專(zhuān)注于附近車(chē)輛的軌跡,但這只是自主系統完整畫(huà)面的一部分。
Euro-PVI通過(guò)交互時(shí)的視覺(jué)場(chǎng)景、交互過(guò)程中的速度和加速度以及整個(gè)交互過(guò)程中的整體坐標軌跡等信息,提供了一個(gè)全面的交互圖。
Euro-PVI 數據集包含有關(guān)行人車(chē)輛交互的豐富信息,例如場(chǎng)景中所有參與者的視覺(jué)場(chǎng)景、速度和加速度。
所有這些信息都必須由經(jīng)過(guò)訓練的模型映射到相關(guān)的潛在空間。為了解決潛在空間中軌跡和視覺(jué)信息的聯(lián)合表示問(wèn)題,同一篇論文還提出了 Joint-B-VAE 的生成架構,這是一種經(jīng)過(guò)訓練的變分自動(dòng)編碼器,用于對參與者的軌跡進(jìn)行編碼并將其解碼為未來(lái)的合成軌跡。
ground truth,Trajectron++ 預測的軌跡和聯(lián)合 B-VAE 的預測軌跡(在同一數據集論文中提出)
原文鏈接:
https://medium.com/@shwetank.ml/datasets-cvpr-2021-problems-that-shouldnt-be-missed-6128d07c59c3
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。