CV不存在了?Meta發(fā)布「分割一切」AI 模型,CV或迎來(lái)GPT-3時(shí)刻
CV 研究者接下來(lái)的路要怎么走?
「這下 CV 是真不存在了。< 快跑 >」這是知乎網(wǎng)友對于一篇 Meta 新論文的評價(jià)。
如標題所述,這篇論文只做了一件事情:(零樣本)分割一切。類(lèi)似 GPT-4 已經(jīng)做到的「回答一切」。
Meta 表示,這是第一個(gè)致力于圖像分割的基礎模型。自此,CV 也走上了「做一個(gè)統一某個(gè)(某些?全部?)任務(wù)的全能模型」的道路。
在此之前,分割作為計算機視覺(jué)的核心任務(wù),已經(jīng)得到廣泛應用。但是,為特定任務(wù)創(chuàng )建準確的分割模型通常需要技術(shù)專(zhuān)家進(jìn)行高度專(zhuān)業(yè)化的工作,此外,該項任務(wù)還需要大量的領(lǐng)域標注數據,種種因素限制了圖像分割的進(jìn)一步發(fā)展。
Meta 在論文中發(fā)布的新模型名叫 Segment Anything Model (SAM) 。他們在博客中介紹說(shuō),「SAM 已經(jīng)學(xué)會(huì )了關(guān)于物體的一般概念,并且它可以為任何圖像或視頻中的任何物體生成 mask,甚至包括在訓練過(guò)程中沒(méi)有遇到過(guò)的物體和圖像類(lèi)型。SAM 足夠通用,可以涵蓋廣泛的用例,并且可以在新的圖像『領(lǐng)域』上即開(kāi)即用,無(wú)需額外的訓練?!乖谏疃葘W(xué)習領(lǐng)域,這種能力通常被稱(chēng)為零樣本遷移,這也是 GPT-4 震驚世人的一大原因。
論文地址:https://arxiv.org/abs/2304.02643
項目地址:https://github.com/facebookresearch/segment-anything
Demo 地址:https://segment-anything.com/
除了模型,Meta 還發(fā)布了一個(gè)圖像注釋數據集 Segment Anything 1-Billion (SA-1B),據稱(chēng)這是有史以來(lái)最大的分割數據集。該數據集可用于研究目的,并且 Segment Anything Model 在開(kāi)放許可 (Apache 2.0) 下可用。
我們先來(lái)看看效果。如下面動(dòng)圖所示,SAM 能很好的自動(dòng)分割圖像中的所有內容:
SAM 還能根據提示詞進(jìn)行圖像分割。例如輸入 Cat 這個(gè)提示詞,SAM 會(huì )在照片中的幾只貓周?chē)L制框并實(shí)現分割:
SAM 還能用交互式點(diǎn)和框的方式進(jìn)行提示:
此外,SAM 還能為不明確的提示生成多個(gè)有效掩碼:
英偉達人工智能科學(xué)家 Jim Fan 表示:「對于 Meta 的這項研究,我認為是計算機視覺(jué)領(lǐng)域的 GPT-3 時(shí)刻之一。它已經(jīng)了解了物體的一般概念,即使對于未知對象、不熟悉的場(chǎng)景(例如水下圖像)和模棱兩可的情況下也能進(jìn)行很好的圖像分割。最重要的是,模型和數據都是開(kāi)源的。恕我直言,Segment-Anything 已經(jīng)把所有事情(分割)都做的很好了?!?/span>
推特地址:https://twitter.com/DrJimFan/status/1643647849824161792
還有網(wǎng)友表示,NLP 領(lǐng)域的 Prompt 范式,已經(jīng)開(kāi)始延展到 CV 領(lǐng)域了,可以預想,今年這類(lèi)范式在學(xué)術(shù)界將迎來(lái)一次爆發(fā)。
更是有網(wǎng)友表示蚌不住了,SAM 一出,CV 是真的不存在了。投稿 ICCV 的要小心了。
不過(guò),也有人表示,該模型在生產(chǎn)環(huán)境下的測試并不理想?;蛟S,這個(gè)老大難問(wèn)題的解決仍需時(shí)日?
方法介紹
此前解決分割問(wèn)題大致有兩種方法。第一種是交互式分割,該方法允許分割任何類(lèi)別的對象,但需要一個(gè)人通過(guò)迭代細化掩碼來(lái)指導該方法。第二種,自動(dòng)分割,允許分割提前定義的特定對象類(lèi)別(例如,貓或椅子),但需要大量的手動(dòng)注釋對象來(lái)訓練(例如,數千甚至數萬(wàn)個(gè)分割貓的例子)。這兩種方法都沒(méi)有提供通用的、全自動(dòng)的分割方法。
SAM 很好的概括了這兩種方法。它是一個(gè)單一的模型,可以輕松地執行交互式分割和自動(dòng)分割。該模型的可提示界面允許用戶(hù)以靈活的方式使用它,只需為模型設計正確的提示(點(diǎn)擊、boxes、文本等),就可以完成范圍廣泛的分割任務(wù)。
總而言之,這些功能使 SAM 能夠泛化到新任務(wù)和新領(lǐng)域。這種靈活性在圖像分割領(lǐng)域尚屬首創(chuàng )。
Meta 表示,他們受到語(yǔ)言模型中提示的啟發(fā),因而其訓練完成的 SAM 可以為任何提示返回有效的分割掩碼,其中提示可以是前景、背景點(diǎn)、粗框或掩碼、自由格式文本,或者說(shuō)能指示圖像中要分割內容的任何信息。而有效掩碼的要求僅僅意味著(zhù)即使提示不明確并且可能指代多個(gè)對象(例如,襯衫上的一個(gè)點(diǎn)可能表示襯衫或穿著(zhù)它的人),輸出也應該是一個(gè)合理的掩碼(就如上面動(dòng)圖「SAM 還能為為不明確的提示生成多個(gè)有效掩碼」所示)。此任務(wù)用于預訓練模型并通過(guò)提示解決一般的下游分割任務(wù)。
如下圖所示 ,圖像編碼器為圖像生成一次性嵌入,而輕量級編碼器將提示實(shí)時(shí)轉換為嵌入向量。然后將這兩個(gè)信息源組合在一個(gè)預測分割掩碼的輕量級****中。在計算圖像嵌入后,SAM 可以在 50 毫秒內根據網(wǎng)絡(luò )瀏覽器中的任何提示生成一個(gè)分割。
在 web 瀏覽器中,SAM 有效地映射圖像特征和一組提示嵌入以產(chǎn)生分割掩碼
1100 萬(wàn)張圖片,1B+ 掩碼
數據集是使用 SAM 收集的。標注者使用 SAM 交互地注釋圖像,之后新注釋的數據又反過(guò)來(lái)更新 SAM,可謂是相互促進(jìn)。
使用該方法,交互式地注釋一個(gè)掩碼只需大約 14 秒。與之前的大規模分割數據收集工作相比,Meta 的方法比 COCO 完全手動(dòng)基于多邊形的掩碼注釋快 6.5 倍,比之前最大的數據注釋工作快 2 倍,這是因為有了 SAM 模型輔助的結果。
最終的數據集超過(guò) 11 億個(gè)分割掩碼,在大約 1100 萬(wàn)張經(jīng)過(guò)許可和隱私保護圖像上收集而來(lái)。SA-1B 的掩碼比任何現有的分割數據集多 400 倍,并且經(jīng)人工評估研究證實(shí),這些掩碼具有高質(zhì)量和多樣性,在某些情況下甚至在質(zhì)量上可與之前更小、完全手動(dòng)注釋的數據集的掩碼相媲美 。
Segment Anything 對使用數據引擎收集的數百萬(wàn)張圖像和掩碼進(jìn)行訓練的結果,得到一個(gè)包含 10 億個(gè)分割掩碼的數據集,是以往任何分割數據集的 400 倍。
SA-1B 的圖像來(lái)自跨不同地理區域和收入水平的多個(gè)國家或地區的照片提供者,在擁有更多圖像的同時(shí)對所有地區的總體代表性也更好。Meta 分析了其模型在感知性別表現、感知膚色和年齡范圍方面的潛在偏差,結果發(fā)現 SAM 在不同群體中的表現類(lèi)似。
SA-1B 可以幫助其他研究人員訓練圖像分割的基礎模型。Meta 也進(jìn)一步希望這些數據能夠成為帶有附加注釋的新數據集的基礎,例如與每個(gè) mask 相關(guān)的文本描述。
未來(lái)展望
通過(guò)研究和數據集共享,Meta 希望進(jìn)一步加速對圖像分割以及更通用圖像與視頻理解的研究??商崾镜姆指钅P涂梢猿洚敻笙到y中的一個(gè)組件,執行分割任務(wù)。作為一種強大的工具,組合(Composition)允許以可擴展的方式使用單個(gè)模型,并有可能完成模型設計時(shí)未知的任務(wù)。
Meta 預計,與專(zhuān)門(mén)為一組固定任務(wù)訓練的系統相比,基于 prompt 工程等技術(shù)的可組合系統設計將支持更廣泛的應用。SAM 可以成為 AR、VR、內容創(chuàng )建、科學(xué)領(lǐng)域和更通用 AI 系統的強大組件。比如 SAM 可以通過(guò) AR 眼鏡識別日常物品,為用戶(hù)提供提示。
SAM 還有可能在農業(yè)領(lǐng)域幫助農民或者協(xié)助生物學(xué)家進(jìn)行研究。
未來(lái)在像素級別的圖像理解與更高級別的視覺(jué)內容語(yǔ)義理解之間,我們將看到更緊密的耦合,進(jìn)而解鎖更強大的 AI 系統。
來(lái)源:機器之心
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。