大咖觀(guān)點(diǎn) | 在大模型時(shí)代推動(dòng)智能視覺(jué)技術(shù)的發(fā)展
作者:Arm 物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁 馬健
本文引用地址:http://dyxdggzs.com/article/202408/461974.htm(鳴謝 Arm 工程部計算視覺(jué)主任架構師 Catherine Wang 對本文內容的貢獻)
語(yǔ)言學(xué)和認知科學(xué)的先驅 Noam Chomsky 曾經(jīng)說(shuō)過(guò),人類(lèi)語(yǔ)言在動(dòng)物世界中是獨一無(wú)二的。如今,隨著(zhù)諸如 GPT-3.5、GPT-4.0 和 Bert 等大語(yǔ)言模型 (LLM) 和生成式人工智能 (AI) 的迅猛發(fā)展,機器已經(jīng)開(kāi)始能夠理解人類(lèi)語(yǔ)言,這極大地擴展了機器可行使的功能。由此也引發(fā)了人們的思考:接下來(lái)技術(shù)會(huì )如何發(fā)展?
智能的演進(jìn)塑造全新計算范式
要預測 AI 的未來(lái)發(fā)展方向,我們只需反觀(guān)人類(lèi)自身。我們通過(guò)感官、思想和行動(dòng)的相互動(dòng)態(tài)作用來(lái)改變世界。這個(gè)過(guò)程包括感知周?chē)澜?、處理信息,并在深思熟慮后作出回應。
在計算技術(shù)的發(fā)展歷程中,我們目睹了曾經(jīng)是人類(lèi)獨有的感知、思考和行動(dòng)等能力,逐漸被機器所掌握。每一次能力的轉移都將催生出新的范式。
20 世紀末,像 Google 這樣的大公司將信息獲取成本從邊際成本轉變?yōu)楣潭ǔ杀?,具體點(diǎn)說(shuō)就是,Google 投入資金來(lái)抓取網(wǎng)絡(luò )和索引信息,但對于我們每個(gè)搜尋信息的用戶(hù)來(lái)說(shuō),投入的成本幾乎可以忽略不計。機器開(kāi)始成為我們的信息系統。這開(kāi)啟了互聯(lián)網(wǎng)時(shí)代及其后續的移動(dòng)互聯(lián)網(wǎng)時(shí)代,改變了人們獲取、傳播和分享信息的方式,并對商業(yè)、教育、娛樂(lè )、社交等多個(gè)領(lǐng)域產(chǎn)生了深遠的影響。
現在,我們正見(jiàn)證技術(shù)發(fā)展的新轉折,思考、推理和模型構建的能力正從人類(lèi)轉移到機器上。OpenAI 和大模型將生產(chǎn)模型的成本從邊際成本轉變?yōu)楣潭ǔ杀尽?/p>
大模型已經(jīng)通過(guò)來(lái)自互聯(lián)網(wǎng)的大量文本、圖像和視頻進(jìn)行了訓練,這其中包含了法律、醫學(xué)、科學(xué)、藝術(shù)等各種領(lǐng)域的信息。這種廣泛的訓練使得這些大模型可以作為基礎模型,用以更輕松地構建其他模型。
無(wú)論是認知模型(如何觀(guān)察和表達)、行為模型(如何駕駛汽車(chē)),還是特定領(lǐng)域的模型(如何設計半導體芯片),這一轉折點(diǎn)必將激發(fā)各類(lèi)模型的廣泛涌現。模型是知識的載體,這一轉折點(diǎn)將使模型和知識變得無(wú)處不在,使我們加速進(jìn)入新一輪的技術(shù)創(chuàng )新,迎來(lái)一個(gè)由自動(dòng)駕駛汽車(chē)、自主移動(dòng)機器人、人形機器人等多樣的機器及其在各行各業(yè)和各種部署場(chǎng)景中應用的新時(shí)代。這些新范式將重新定義人機交互的方式。
多模態(tài) LLM 與視覺(jué)的關(guān)鍵作用
通過(guò) Transformer 模型及其自注意力機制,AI 可以真正實(shí)現多模態(tài),這意味著(zhù) AI 系統可以像人們一樣處理來(lái)自語(yǔ)音、圖像和文本等多種模式的輸入信息。
OpenAI 的 CLIP、DALL·E、Sora 和 GPT-4o 就是朝著(zhù)多模態(tài)邁進(jìn)的一些模型。例如,CLIP 用于理解圖像與自然語(yǔ)言的配對數據,從而在視覺(jué)和文本信息之間架起橋梁;DALL·E 旨在根據文本描述生成圖像,而 Sora 可以根據文本生成視頻,有望在未來(lái)成為全球性的模擬器。OpenAI 則將 GPT-4o 的發(fā)展往前更進(jìn)一步,OpenAI 綜合利用文本、視覺(jué)和音頻信息來(lái)端到端訓練單個(gè)新模型 GPT-4o,無(wú)需進(jìn)行多媒體與文本的相互轉換。所有輸入和輸出都經(jīng)同一神經(jīng)網(wǎng)絡(luò )處理,使得模型能夠跨模態(tài)綜合音頻、視覺(jué)和文本信息進(jìn)行實(shí)時(shí)推理。
多模態(tài) AI 的未來(lái)將聚焦于邊緣側
得益于邊緣側硬件的進(jìn)步(許多邊緣硬件都是基于 Arm 平臺開(kāi)發(fā)設計的),同時(shí)也為了解決延遲問(wèn)題、隱私和安全需求、帶寬和成本考量,并確保在網(wǎng)絡(luò )連接間斷或無(wú)連接時(shí)能夠離線(xiàn)使用,AI 創(chuàng )新者在不斷突破模型的運行邊界。Sam Altman 也曾坦言 [1] ,對于視頻(我們通過(guò)視覺(jué)感知到的內容),要想提供理想的用戶(hù)體驗,端側模型至關(guān)重要。
然而,資源限制、模型大小和復雜性挑戰阻礙了多模態(tài) AI 向邊緣側的轉移。要想解決這些問(wèn)題,我們需綜合利用硬件進(jìn)步、模型優(yōu)化技術(shù)和創(chuàng )新的軟件解決方案,來(lái)促進(jìn)多模態(tài) AI 的普及。
近期的 AI 發(fā)展對計算機視覺(jué)產(chǎn)生了深遠的影響,尤其令人關(guān)注。許多視覺(jué)領(lǐng)域研究人員和從業(yè)者正在使用大模型和 Transformer 來(lái)增強視覺(jué)能力。在大模型時(shí)代,視覺(jué)的重要性日益凸顯。原因有以下幾點(diǎn):
機器系統必須通過(guò)視覺(jué)等感知能力來(lái)了解周?chē)h(huán)境,為自動(dòng)駕駛和機器人提供關(guān)乎人身安全的必要安全性和避障能力??臻g智能是被譽(yù)為“AI 教母”的李飛飛等研究人員關(guān)注的熱門(mén)領(lǐng)域。
視覺(jué)對于人機交互至關(guān)重要。AI 伴侶不僅需要高智商,還需要高情商。機器視覺(jué)可以捕捉人類(lèi)的表情、手勢和動(dòng)作,從而更好地理解人類(lèi)的意圖和情感。
AI 模型需要視覺(jué)能力和其他傳感器來(lái)收集實(shí)際數據并適應特定環(huán)境,隨著(zhù) AI 從輕工業(yè)延伸到數字化水平較低的重工業(yè),收集物理世界特征數據集,建立 3D 物理世界的仿真環(huán)境或數字孿生,并使用這些技術(shù)來(lái)訓練多模態(tài)大模型,使模型可以理解真實(shí)的物理世界,這一點(diǎn)都尤為重要。
視覺(jué) + 基礎模型的示例
盡管 ChatGPT 因其出色的語(yǔ)言能力而廣受歡迎,但隨著(zhù)主流的 LLM 逐漸演變成多模態(tài),將它們稱(chēng)作“基礎模型”也許更為貼切。包括視覺(jué)等多種模態(tài)在內的基礎模型領(lǐng)域正在快速發(fā)展。以下是一些例子:
DINOv2
DINOv2 是由 Meta AI 開(kāi)發(fā)的先進(jìn)自監督學(xué)習模型,它基于原來(lái)的 DINO 模型打造,并已通過(guò)擁有 1.42 億張圖像的龐大數據集進(jìn)行了訓練,這有助于提高它在不同視覺(jué)領(lǐng)域的穩健性和通用性。DINOv2 無(wú)需專(zhuān)門(mén)訓練就能分割對象。此外,它還能生成通用特征,適用于圖像級視覺(jué)任務(wù)(如圖像分類(lèi)、視頻理解)和像素級視覺(jué)任務(wù)(如深度估計、語(yǔ)義分割),表現出卓越的泛化能力和多功能性。
Segment Anything 模型 (SAM)
SAM 是一種可推廣的分割系統,可以對不熟悉的對象和圖像進(jìn)行零樣本泛化,而無(wú)需額外訓練。它可以使用多種輸入提示詞來(lái)識別和分割圖像中的對象,以明確要分割的目標。因此在遇到每個(gè)新對象或場(chǎng)景時(shí),它無(wú)需進(jìn)行特殊訓練即可運行。據 Meta AI 介紹,SAM 可以在短短 50 毫秒內生成分割結果,因此非常適合實(shí)時(shí)應用。它具備多功能性,可應用于從醫學(xué)成像到自動(dòng)駕駛等諸多領(lǐng)域。
Stable Diffusion
文生圖和文生視頻是生成式 AI 的一個(gè)重要方面,因為它不僅能夠助力產(chǎn)生新的創(chuàng )意,還有望構建一個(gè)世界模擬器,用來(lái)作為訓練模擬、教育程序或視頻游戲的基礎。Stable Diffusion 是一個(gè)生成式 AI 模型,能夠根據文本描述創(chuàng )建圖像。該模型使用一種稱(chēng)為潛在擴散 (latent diffusion) 的技術(shù),在潛在空間 (latent space) 的壓縮格式中操作圖像,而不是直接在像素空間中操作,從而實(shí)現高效運行。這種方法有助于減少計算負載,使模型能夠更快地生成高質(zhì)量圖像。
Stable Diffusion 已經(jīng)可以在智能移動(dòng)設備的邊緣側運行。上圖是 Stable Diffusion 優(yōu)化過(guò)程的示例:
如果采用 Stable Diffusion 的原始設置,將不適合在移動(dòng)端 CPU 或 NPU 上運行(基于 512×512 圖像分辨率)。
通過(guò)使用更小的 U-Net 架構、更少的采樣步驟、切換到 ONNX 格式、應用量化技術(shù)(從 FP32 到 INT8)和其他技術(shù),它僅在 CPU 上就實(shí)現了超過(guò) 60 倍的速度提升。其中許多優(yōu)化技術(shù)和工具都是基于 Arm 廣泛的生態(tài)系統所開(kāi)發(fā)的。該模型仍有進(jìn)一步優(yōu)化的空間。
借助多模態(tài) LLM 實(shí)現出色視覺(jué)體驗
作為 Arm 的智能視覺(jué)合作伙伴計劃的一員,愛(ài)芯元智 (Axera) 利用其旗艦芯片組 AX650N 在邊緣側部署了 DINOv2 視覺(jué) Transformer。該芯片采用 Arm Cortex-A55 CPU 集群進(jìn)行預處理和后處理,結合愛(ài)芯通元混合精度 NPU 和愛(ài)芯智眸 AI-ISP,其具有高性能、高精度、易于部署和出色能效等特點(diǎn)。
以下展示了在 AX650N 上運行 DINOv2 的效果:
通過(guò)使用多樣化大型數據集進(jìn)行預訓練之后,視覺(jué) Transformer 可以更好地泛化到新任務(wù)和未見(jiàn)過(guò)的任務(wù),從而簡(jiǎn)化了再訓練過(guò)程并縮短了調優(yōu)時(shí)間。它們可以應用于圖像分類(lèi)之外的多種任務(wù),例如對象檢測和分割,而無(wú)需進(jìn)行大量的架構更改。
迎接 AI 和人機界面的未來(lái)
得益于 AI 和 LLM 的不斷發(fā)展,我們正處于技術(shù)和人類(lèi)交互轉型的交會(huì )點(diǎn)。視覺(jué)會(huì )在這一演進(jìn)中起到關(guān)鍵作用,賦予了機器理解周?chē)h(huán)境以及在物理世界中“生存”的能力,可確保安全并增強交互性。在硬件和軟件快速發(fā)展的推動(dòng)下,向邊緣側 AI 的轉變有望實(shí)現高效的實(shí)時(shí)應用。
評論