<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 密歇根大學(xué)團隊打造多模態(tài)大模型,能用于可穿戴設備和具身AI智能體

密歇根大學(xué)團隊打造多模態(tài)大模型,能用于可穿戴設備和具身AI智能體

發(fā)布人:深科技 時(shí)間:2024-06-02 來(lái)源:工程師 發(fā)布文章
近期,大語(yǔ)言模型(Large Language Models,LLMs)已經(jīng)在理解和生成自然語(yǔ)言上取得了空前的成功。

但是,人類(lèi)依靠自己的大腦不僅僅可以讀寫(xiě)文字,還可以看圖、看視頻、聽(tīng)音樂(lè )等。所以,為了讓 AI 更接近真實(shí)世界,將額外的模態(tài)比如圖像輸入,融入大語(yǔ)言模型從而打造多模態(tài)大模型(MLLMs,Multi-modal LLMs),被認為是 AI 發(fā)展的一個(gè)關(guān)鍵新領(lǐng)域。相比純文本數據,多模態(tài)數據更加難以獲取,而從零開(kāi)始直接訓練多模態(tài)模型也比較困難。因此,目前的主流方法是基于預訓練好的大語(yǔ)言模型,為其配備一個(gè)視覺(jué)感知模塊,來(lái)獲取多模態(tài)感知能力。典型的該類(lèi)模型有 Flamingo、BLIP、LLaVA、MiniGPT4 等。這些模型可以處理圖片輸入,根據用戶(hù)的問(wèn)題生成相應的文本回復。然而,研究發(fā)現盡管這些模型表現出不錯的多模態(tài)理解能力,但是存在嚴重的視覺(jué)幻覺(jué)問(wèn)題。具體表現為:幻想圖片中不存在的物體、回答中對圖片內容的描述與事實(shí)嚴重不符等。該問(wèn)題的本質(zhì)其實(shí)是:現有模型在細粒度文本圖像匹配能力上存在缺失。近期,Kosmos、Shikra 和 Ferret 等模型,將 Grounding 能力引入了 MLLM(即 Grounding MLLM)。它指的是當模型在輸出文本時(shí),可以同時(shí)輸出名詞短語(yǔ)所對應物體的邊界框坐標,以表示該物體在圖片中的位置。實(shí)驗結果證明,此類(lèi)模型具備更可靠的性能,能顯著(zhù)減少視覺(jué)幻覺(jué)的發(fā)生。此外,由于模型可以更全面地呈現輸出文本和文本所指物體在圖片中的位置關(guān)系,因此可以給用戶(hù)提供信息量更多、也更容易理解的內容輸出。然而,目前基于邊界框的 Grounded MLLM 模型仍然存在幾個(gè)問(wèn)題:首先,受限于長(cháng)方形物體邊界框的表達能力,現有模型無(wú)法進(jìn)行更精細的文本實(shí)體定位。例如,當文本所指物體是不規則的背景形狀(如天空、樹(shù)林)時(shí),或者和其他物體有部分重疊或位置交錯等,邊界框無(wú)法準確表達所表示物體的位置,以至于容易產(chǎn)生歧義。其次,受限于模型訓練數據的多樣性,現有模型僅限于指代單個(gè)物體,而很難生成物體局部區域、多個(gè)物體組成的整體、以及圖片中文本的指代。最后,現有模型是基于圖像的隱式特征,來(lái)直接預測物體的邊界框坐標。而這一過(guò)程并不透明,當出現物體指代錯誤時(shí),很難診斷問(wèn)題是出在檢測上——即沒(méi)有成功檢測到目標物體,還是出在識別上——即成功檢測到物體但是識別錯誤。圖片圖 | GROUNDHOG 支持的任務(wù)示例(來(lái)源:arXiv針對這些問(wèn)題,美國密歇根大學(xué)博士生張亦弛和所在團隊提出了 GROUNDHOG,這是一個(gè)可以支持大型語(yǔ)言模型與視覺(jué)實(shí)體進(jìn)行像素級語(yǔ)義對齊的 Grounded MLLM 模型。圖片圖 | 張亦弛(來(lái)源:張亦弛)對于已有的 MLLM 模型來(lái)說(shuō),其采用輸入 patch-level 視覺(jué)特征后直接輸出定位坐標的黑盒架構。而 GROUNDHOG 的關(guān)鍵思想是將 Language Grounding(語(yǔ)言接地)解藕成兩個(gè)階段:定位和識別。在定位階段:首先,由一個(gè)可以提出各種不同實(shí)體區域分割的專(zhuān)家模型,提供圖像中所有實(shí)體的分割。然后,通過(guò)一個(gè)掩碼特征提取器,提取每個(gè)實(shí)體的視覺(jué)特征,以此作為多模態(tài)語(yǔ)言模型的輸入。在識別階段:當大語(yǔ)言模型解碼出可進(jìn)行視覺(jué)錨定的短語(yǔ)時(shí),就會(huì )從輸入的所有實(shí)體中,選擇相應的實(shí)體分割進(jìn)行融合,借此得到文本對應的視覺(jué)分割區域。這種分離的設計不僅允許獨立優(yōu)化實(shí)體分割模型和多模態(tài)語(yǔ)言模型,還提高了錯誤分析的可解釋性,并允許 MLLM 與多種視覺(jué)專(zhuān)家模型靈活結合,從而提高整體性能。圖片圖 | GROUNDHOG 架構(來(lái)源:arXiv此外,GROUNDHOG 的這種設計模式可以自然拓展到區域級的圖像理解任務(wù),能夠靈活地接受任何圖像中的位置和區域指代方式來(lái)作為輸入。另?yè)?,不同?GPT4ROI、Ferret 等現有模型需要引入額外的 spatial prompt encoder,GROUNDHOG 可以直接和 SAM(Segment Anything)等預訓練專(zhuān)家模型結合,從而處理位置的指代輸入,進(jìn)而極大拓展應用場(chǎng)景。圖片圖 | 與 SAM 無(wú)縫銜接處理各種形式的位置提示輸入(來(lái)源:arXiv據了解,為了訓練 GROUNDHOG,課題組整合了 27 個(gè)現有數據集的 2.5M 文本-圖像對,并進(jìn)行了衍生和增強。通過(guò)此,他們組成一個(gè)名為 M3G2 的新數據集,以便用于學(xué)習多模態(tài)多粒度的視覺(jué)文本對齊能力。M3G2 包括圖文錨定描述、指代物體分割、圖文錨定問(wèn)答、視覺(jué)指代對話(huà) 4 大類(lèi)任務(wù),涵蓋 36 種子任務(wù),具備豐富的視覺(jué)文本對齊標注能力。圖片圖 | M3G2 數據集的 4 種任務(wù)示例及數據統計(來(lái)源:arXiv通過(guò)相關(guān)實(shí)驗,該團隊證明 GROUNDHOG 在各種視覺(jué)文本對齊任務(wù)上,都能達到很好的性能,且無(wú)需針對特定任務(wù)進(jìn)行微調。此外,GROUNDHOG 能顯著(zhù)減少視覺(jué)幻覺(jué)現象的出現,并在失敗案例中提供了易于理解的診斷信息,為需要精確視覺(jué)理解和自然語(yǔ)言處理的領(lǐng)域的發(fā)展奠定了一定基礎。圖片(來(lái)源:arXivGROUNDHOG 模型的一個(gè)典型應用場(chǎng)景,便是在可穿戴設備中,推動(dòng)多模態(tài) AI 助手的發(fā)展。試想這樣一個(gè)情境:當顧客佩戴智能眼鏡在商場(chǎng)購物時(shí),對著(zhù)某個(gè)品牌的商品詢(xún)問(wèn) AI 助手:“這個(gè)商品好嗎,有更好評價(jià)的嗎?”AI 助手不僅能精確地識別顧客所指商品并能提供相關(guān)評價(jià)信息,還能智能推薦貨架上其他評價(jià)更高的商品。以及能在眼鏡屏幕上通過(guò)增強現實(shí)技術(shù),高亮地顯示這些商品,便于顧客查找和比較。在顧客與多模態(tài) AI 助手的互動(dòng)中,這種結合視線(xiàn)追蹤理解用戶(hù)意圖的能力,加上視覺(jué)錨定增強輸出文本的效果,不僅可以提升交互的自然性,也能極大增強用戶(hù)體驗。“也就是說(shuō),GROUNDHOG 模型正是在這兩個(gè)關(guān)鍵能力上表現出色,從而能為推動(dòng)下一代多模態(tài) AI 助手的革新奠定基礎?!毖芯咳藛T表示。GROUNDHOG 的另一個(gè)應用前景,在于能夠驅動(dòng)具身 AI 智能體。比如,可以設計一個(gè)網(wǎng)絡(luò )瀏覽機器人,它通過(guò)接收網(wǎng)頁(yè)截圖和用戶(hù)意圖描述作為輸入,并輸出相應的鼠標操作或鍵盤(pán)操作。在這個(gè)場(chǎng)景中,點(diǎn)擊網(wǎng)頁(yè)元素——可被視作結合輸出文本(動(dòng)作)和網(wǎng)頁(yè)交互元素位置的交互行為。比如,智能體輸出的動(dòng)作為“點(diǎn)擊‘提交’按鈕”,然后識別并定位到截圖中的“提交”按鈕,并執行實(shí)際的點(diǎn)擊操作。研究人員表示:“GROUNDHOG 所提供的 Grounding 能力在這種視覺(jué)語(yǔ)言理解與動(dòng)作執行相結合的應用場(chǎng)景中至關(guān)重要,進(jìn)一步拓寬了多模態(tài)語(yǔ)言模型在用于 AI 智能體決策中的應用范圍?!?/span>事實(shí)上,該團隊最開(kāi)始的研究動(dòng)機是因為觀(guān)察到了多模態(tài)大語(yǔ)言模型中普遍存在的視覺(jué)幻覺(jué)現象,希望探索緩解這個(gè)問(wèn)題的解決方案。經(jīng)過(guò)深入思考之后,他們認為幻覺(jué)現象出現的根源還是在于模型視覺(jué)文本對齊能力的缺失。而現有模型由于架構上的限制,很難支持精細的像素級文本對齊。由此便想到:為何不打造一款新模型去解決這個(gè)問(wèn)題呢?于是研究重心就從緩解視覺(jué)幻覺(jué)轉移到開(kāi)發(fā)一款具備較強像素級視覺(jué)文本對齊能力的模型。幸運的是,當他們的架構能夠運營(yíng)之后,該團隊在實(shí)驗中發(fā)現確實(shí)極大緩解了大模型的視覺(jué)幻覺(jué)問(wèn)題,因此也算完成了他們的初衷。與此同時(shí),在確定研究問(wèn)題之后,很快他們就發(fā)現了現有模型存在可解釋性較差的問(wèn)題,于是便確定了“先定位后識別”的主要框架。隨后,課題組開(kāi)始尋找具體的實(shí)體分割模型。期間遇到了一些困難:其希望這個(gè)實(shí)體分割模型可以提供語(yǔ)義豐富、粒度多樣、高質(zhì)量的實(shí)體分割圖片標簽。然而,在已有的預訓練分割模型中,要么只能給出有限的實(shí)體類(lèi)別,要么無(wú)法很好地支持他們想要的多粒度分割??傊?,并沒(méi)有可以滿(mǎn)足研究人員全部需求的模型。因此,他們通過(guò)整合 COCO、LVIS、PACO、Entity-V2、TextOCR 等現有的分割數據集,基于一個(gè)修改后的 Mask2Former 架構自行訓練了一個(gè)支持多樣、全面分割的模型 Mask2Former+,以此作為他們的實(shí)體分割模型。而在當時(shí),另一個(gè)重要問(wèn)題就是構建訓練模型的數據集。構建這種具備較為復雜的細粒度圖像文本對齊標注的數據集一般有兩種方式:要么通過(guò)重新整合現有數據集,要么通過(guò)現有的大模型對圖像進(jìn)行標注加工。出于對任務(wù)豐富性和數據質(zhì)量的考慮,他們選擇了前者,并盡可能地收集了學(xué)術(shù)界已有的能夠納入本次任務(wù)框架的數據集。隨后,該團隊通過(guò) ChatGPT 生成了對話(huà)模板,將所有數據整合為了人機對話(huà)的形式。最后,他們選擇在視覺(jué)文本對齊任務(wù)中一些比較有代表性的 benchmark,對本次模型加以量化評測與分析。日前,相關(guān)論文以《GROUNDHOG:將大型語(yǔ)言模型建立在整體分割的基礎上》(GROUNDHOG:Grounding Large Language Models to Holistic Segmentation)為題發(fā)在 arXiv[1]。圖片圖 | 相關(guān)論文(來(lái)源:arXiv關(guān)于上述數據集和本次模型的詳細介紹,可以參考本次論文的附錄。之后,他們也會(huì )將這部分數據處理和模型訓練的代碼一并公開(kāi)。后續,他們希望能將 GROUDHOG 拓展到第一視角視頻,打造一個(gè)能夠處理視頻輸入的 Grounded MLLM 個(gè)人助手。參考資料:1.https://arxiv.org/pdf/2402.16846

排版:初嘉實(shí)


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 密歇根

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>