<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 清華系面壁智能開(kāi)源中文多模態(tài)大模型VisCPM :支持對話(huà)文圖雙向生成,吟詩(shī)作畫(huà)能力驚艷

清華系面壁智能開(kāi)源中文多模態(tài)大模型VisCPM :支持對話(huà)文圖雙向生成,吟詩(shī)作畫(huà)能力驚艷

發(fā)布人:機器之心 時(shí)間:2023-07-03 來(lái)源:工程師 發(fā)布文章

再現破壁式成就,VisCPM強勢來(lái)襲!


2020 年 12 月發(fā)布的 CPM-1 是國內首個(gè)中文大模型 ;2022 年 9 月發(fā)布的 CPM-Ant 僅微調 0.06% 參數就能超越全參數微調效果;2023 年 5 月發(fā)布的 WebCPM 是 中文首個(gè)基于搜索的問(wèn)答開(kāi)源模型。CPM-Bee 百億大模型是團隊最新發(fā)布的基座模型,中文能力登頂權威榜單 ZeroCLUE,英文能力打平 LLaMA。


屢屢作出破壁性成就,CPM 系列大模型一直在引領(lǐng)國產(chǎn)大模型攀登高峰,最近發(fā)布的 VisCPM 是又一次證明!VisCPM 是由面壁智能、清華大學(xué) NLP 實(shí)驗室和知乎聯(lián)合開(kāi)源在 OpenBMB 的多模態(tài)大模型系列,其中 VisCPM-Chat 模型支持中英雙語(yǔ)的多模態(tài)對話(huà)能力,VisCPM-Paint 模型支持文到圖生成能力,評測顯示 VisCPM 在中文多模態(tài)開(kāi)源模型中達到最佳水平。


VisCPM 基于百億參數基座模型 CPM-Bee 訓練,融合視覺(jué)編碼器(Q-Former 和視覺(jué)****(Diffusion-UNet)以支持視覺(jué)信號的輸入和輸出。得益于 CPM-Bee 底座優(yōu)秀的雙語(yǔ)能力,VisCPM 可以?xún)H通過(guò)英文多模態(tài)數據預訓練,泛化實(shí)現優(yōu)秀的中文多模態(tài)能力。


圖片


VisCPM簡(jiǎn)易架構圖


我們來(lái)詳細看看 VisCPM-Chat 和 VisCPM-Paint 到底牛在哪里。


圖片


VisCPM 鏈接https://github.com/OpenBMB/VisCPM


VisCPM-Chat 支持面向圖像進(jìn)行中英雙語(yǔ)多模態(tài)對話(huà)。該模型使用 Q-Former 作為視覺(jué)編碼器,使用 CPM-Bee(10B)作為語(yǔ)言交互基底模型,并通過(guò)語(yǔ)言建模訓練目標融合視覺(jué)和語(yǔ)言模型。模型訓練包括預訓練和指令精調兩階段。


團隊使用約 100M 高質(zhì)量英文圖文對數據 對 VisCPM-Chat 進(jìn)行了預訓練,數據包括 CC3M、CC12M、COCO、Visual Genome、Laion 等。在預訓練階段,語(yǔ)言模型參數保持固定,僅更新 Q-Former 部分參數,以支持大規模視覺(jué) - 語(yǔ)言表示的高效對齊。


之后團隊對 VisCPM-Chat 進(jìn)行了指令精調,采用 LLaVA-150K 英文指令精調數據,并混合相應翻譯后的中文數據對模型進(jìn)行指令精調,以對齊模型多模態(tài)基礎能力和用戶(hù)使用意圖。在指令精調階段,他們更新了全部模型參數,以提升指令精調數據的利用效率。


有趣的是,團隊發(fā)現即使僅采用英文指令數據進(jìn)行指令精調,模型也可以理解中文問(wèn)題,但僅能用英文回答。這表明模型的多語(yǔ)言多模態(tài)能力已經(jīng)得到良好的泛化。在指令精調階段進(jìn)一步加入少量中文翻譯數據,就可以將模型回復語(yǔ)言和用戶(hù)問(wèn)題語(yǔ)言對齊。


團隊在 LLaVA 英文測試集和翻譯的中文測試集對模型進(jìn)行了評測,該評測基準考察模型在開(kāi)放域對話(huà)、圖像細節描述、復雜推理方面的表現,并使用 GPT-4 進(jìn)行打分??梢杂^(guān)察到,VisCPM-Chat 在中文多模態(tài)能力方面取得了最佳的平均性能,在通用域對話(huà)和復雜推理上表現出色,同時(shí)也表現出了不錯的英文多模態(tài)能力。


VisCPM-Chat 提供了兩個(gè)模型版本,分別為 VisCPM-Chat-balance 和 VisCPM-Chat-zhplus,前者在英文和中文兩種語(yǔ)言上的能力較為平衡,后者在中文能力上更加突出。兩個(gè)模型在指令精調階段使用的數據相同,VisCPM-Chat-zhplus 在預訓練階段額外加入了 20M 清洗后的原生中文圖文對數據和 120M 翻譯到中文的圖文對數據。


圖片


下面是 VisCPM-Chat 的多模態(tài)對話(huà)能力展示,不僅能識別具體地區的地圖,還能讀懂涂鴉畫(huà)和電影海報,甚至認識星巴克的 logo。而且,中英文雙語(yǔ)都很溜!


圖片


再來(lái)看 VisCPM-Paint ,它支持中英雙語(yǔ)的文到圖生成。該模型使用 CPM-Bee(10B)作為文本編碼器,使用 UNet 作為圖像****,并通過(guò)擴散模型訓練目標融合語(yǔ)言和視覺(jué)模型。


在訓練過(guò)程中,語(yǔ)言模型參數始終保持固定。使用 Stable Diffusion 2.1 的 UNet 參數初始化視覺(jué)****,并通過(guò)逐步解凍其中關(guān)鍵的橋接參數將其與語(yǔ)言模型融合:首先訓練文本表示映射到視覺(jué)模型的線(xiàn)性層,然后進(jìn)一步解凍 UNet 的交叉注意力層。該模型在 Laion 2B 英文圖文對數據上進(jìn)行了訓練。


與 VisCPM-Paint 類(lèi)似,得益于基座模型 CPM-Bee 的雙語(yǔ)能力,VisCPM-Paint 可以?xún)H通過(guò)英文圖文對訓練,泛化實(shí)現良好的中文文到圖生成能力,達到中文開(kāi)源模型的最佳效果。通過(guò)進(jìn)一步加入 20M 清洗后的原生中文圖文對數據,以及 120M 翻譯到中文的圖文對數據,模型的中文文到圖生成能力獲得進(jìn)一步提升。同樣,VisCPM-Paint 有 balance 和 zhplus 兩個(gè)不同的版本。他們在標準圖像生成測試集 MSCOCO 上采樣了 3 萬(wàn)張圖片,計算了常用評估圖像生成指標 FID (Fréchet Inception Distance) 評估生成圖片的質(zhì)量。


圖片


VisCPM-Paint 模型中分別輸入 “海上生明月,天涯共此時(shí),唯美風(fēng)格,抽象風(fēng)格”“人閑桂花落,月靜春山空” 兩條 prompts,生成了以下兩張圖片:


圖片

(生成效果穩定性仍有提升空間)


相當驚艷,可以說(shuō)精準把握了古詩(shī)詞的意境,以后讀不懂詩(shī)句就直接生成個(gè)圖片來(lái)理解!如果應用在設計上,可以節省一大筆人力。不僅能 “作畫(huà)”,用上 VisCPM-Chat,還能 “吟詩(shī)”:用圖片反向檢索詩(shī)句。比如能用李白的詩(shī)描繪黃河的景象并作解讀,在面對中秋月夜時(shí)還能用蘇軾的《水調歌頭》借景抒情。


圖片圖片


VisCPM 不僅生成效果好,下載版本設計考慮周到,安裝和使用也十分簡(jiǎn)易。 


圖片

VisCPM提供不同中英文能力的版本


圖片

安裝步驟


VisCPM 提供不同中英文能力的模型版本供大家下載選擇,安裝步驟簡(jiǎn)單,在使用中可以通過(guò)幾行代碼實(shí)現多模態(tài)對話(huà),還在代碼中默認開(kāi)啟了對輸入文本和輸出圖片的安全檢查。(具體教程詳見(jiàn) README)未來(lái)團隊還會(huì )將 VisCPM 整合到 huggingface 代碼框架中,并且會(huì )陸續完善安全模型、 支持快速網(wǎng)頁(yè)部署、 支持模型量化功能、支持模型微調等功能,坐等更新!


值得一提的是,VisCPM 系列模型非常歡迎個(gè)人使用和研究用途。如需將模型用于商業(yè)用途,還可以聯(lián)系 cpm@modelbest.cn 洽談商業(yè)授權事宜。


傳統模型專(zhuān)注處理單一模態(tài)數據,現實(shí)世界中的信息往往是多模態(tài)的,多模態(tài)大模型提升了人工智能系統的感知交互能力,為 AI 解決現實(shí)世界中復雜的感知和理解任務(wù)帶來(lái)了新的機遇。不得不說(shuō),清華系大模型公司面壁智能研發(fā)能力強大,聯(lián)合發(fā)布的多模態(tài)大模型 VisCPM 實(shí)力強大、表現驚艷,期待他們后續的成果發(fā)布!


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>