多模態(tài)人工智能有哪些應用場(chǎng)景?
上一篇文章介紹了什么是生成式人工智能(Generative AI)(http://dyxdggzs.com/article/202502/467350.htm)。本篇為您介紹與生成式人工智能有關(guān)系的多模態(tài)人工智能如何實(shí)現像人一樣綜合處理多個(gè)信息和數據,以及多模態(tài)人工智能有哪些常見(jiàn)應用場(chǎng)景。
本文引用地址:http://dyxdggzs.com/article/202502/467351.htm01 生成式AI與多模態(tài)AI
人工智能技術(shù)正在迅速發(fā)展,不斷改變我們的生活和業(yè)務(wù)等的存在方式。在這些人工智能技術(shù)中,目前特別受到關(guān)注的人工智能有“生成式人工智能”和“多模態(tài)人工智能”。
生成式人工智能是一種擁有能夠自動(dòng)生成并輸出文本/圖像/音樂(lè )等多種形式的數據的能力,并且能支援迄今為止由人類(lèi)承擔的創(chuàng )造性作業(yè)的人工智能。
多模態(tài)人工智能(Multimodal AI)是一種輸入數據(模態(tài))有多種形式的人工智能。例如,輸入“文本”和“圖像”等不同數據,并將這些數據綜合后進(jìn)行預估,就是多模態(tài)人工智能的代表性例子。這里提到的“模態(tài)”,意思是指數據的模態(tài)(Modality),“多模態(tài)”指的是多種形式的模態(tài)(文本、圖像、聲音等)。
圖一、多模態(tài)可以處理包括輸入和輸出在內的不同數據形式的人工智能。例如,即使輸入數據和輸出數據分別為一個(gè),輸入是聲音,輸出是文本,這種數據形式不同的人工智能有時(shí)也被稱(chēng)為多模態(tài)人工智能。
02 多模態(tài)AI與單模態(tài)AI
既然有多模態(tài)人工智能,就不得不解釋一下對應的單模態(tài)AI是什么。相對于處理多種形式數據的多模態(tài)人工智能,處理傳統人工智能中的單一數據的人工智能就是單模態(tài)人工智能。
圖二、多模態(tài)人工智能和單模態(tài)人工智能的示意圖。
單模態(tài)人工智能輸入單一信息(例如僅文本、僅圖像或僅聲音)并分別處理,例如,使用網(wǎng)絡(luò )上的文本學(xué)習和用戶(hù)的文本輸入的生成式人工智能服務(wù)就屬于單模態(tài)人工智能。
此外,單模態(tài)人工智能的另一個(gè)例子是使用在網(wǎng)絡(luò )末端的傳感器等終端(邊緣設備)進(jìn)行AI推理的邊緣人工智能處理影像或語(yǔ)音。
另外,人們也在自動(dòng)駕駛等方面嘗試邊緣人工智能的多模態(tài)化,毫無(wú)疑問(wèn),邊緣人工智能的多模態(tài)化今后將在多種領(lǐng)域不斷取得進(jìn)展。
03 多模態(tài)人工智能的演變
與多模態(tài)人工智能相關(guān)的構想和研究據說(shuō)始于上個(gè)世紀80年代。自2000年代以來(lái),多模態(tài)人工智能的研究隨著(zhù)機器學(xué)習中的深度學(xué)習而不斷發(fā)展。2010年代,多模態(tài)人工智能應用程序問(wèn)世,它讓人工智能學(xué)習人類(lèi)面部表情和文本,畫(huà)面上的阿凡達會(huì )根據文本改變其表情。
2015年以后,可以有效捕獲多種形式的數據之間關(guān)聯(lián)性的人工智能模型出現,數據綜進(jìn)一步發(fā)展,因此,復雜處理和高階識別也可以實(shí)現。而且,進(jìn)入2020年代后,多模態(tài)人工智能在主要的生成式人工智能服務(wù)和人工智能平臺中引進(jìn)得越來(lái)越多。
例如,出現了綜合圖像和文本等數據并通過(guò)大語(yǔ)言模型(LLM:Large language Models)提供自然語(yǔ)言應答、根據用戶(hù)提的問(wèn)題輸出圖像和文本這兩種形式的數據、輸出說(shuō)明圖像的文本等使用方式。而且,還發(fā)布了配備多模態(tài)人工智能的可穿戴設備等,在日常硬件中也引進(jìn)得越來(lái)越多。
人們預計不斷取得進(jìn)展的多模態(tài)人工智能今后將繼續迅速向多種領(lǐng)域滲透,包括自動(dòng)駕駛技術(shù)、安保、醫療、制造和工程、商業(yè)支持和管理、體育及娛樂(lè )等。
04 多模態(tài)人工智能的應用事例
多模態(tài)人工智能可以處理多種數據形式作為輸入,因此是一種能夠用于多種目的的高度靈活的人工智能。下面介紹多模態(tài)人工智能的幾個(gè)主要應用事例。
1. 網(wǎng)絡(luò )領(lǐng)域:識別假冒產(chǎn)品和假視頻
一個(gè)為人熟知的應用事例是為識別私人交易中介網(wǎng)站上的假冒產(chǎn)品——根據新銷(xiāo)售產(chǎn)品上附帶的文本(說(shuō)明文和標簽)和產(chǎn)品影像數據來(lái)進(jìn)行判斷的識別提供支持。此外,它還可以用于在視頻發(fā)布網(wǎng)站等處從圖像和語(yǔ)音等多種數據識別假視頻。
通過(guò)讓多模態(tài)人工智能學(xué)習,讓它能夠對容易被偽造的知名產(chǎn)品的真假難辨復制品、模仿各國重要人物和名人的深度偽造視頻進(jìn)行高精度識別,多模態(tài)人工智能的識別能力有望進(jìn)一步提高。
2. 汽車(chē)領(lǐng)域:支持自動(dòng)駕駛控制
為了讓5級自動(dòng)駕駛(一種可以在任意地方自動(dòng)駕駛且不需要方向盤(pán)操作的駕駛系統)在未來(lái)實(shí)現實(shí)用化,人們目前正在進(jìn)行多種研究和驗證工作。多模態(tài)人工智能在前沿自動(dòng)駕駛技術(shù)研究中的應用已受到全世界的關(guān)注。
從眾多傳感器獲得的汽車(chē)內部和外部數據、通過(guò)無(wú)線(xiàn)通信獲得的與位置、其他車(chē)輛和交通狀況相關(guān)的數據、與乘客之間說(shuō)話(huà)的語(yǔ)音數據等,多模態(tài)人工智能綜合處理多種數據的能力可以說(shuō)是控制自動(dòng)駕駛不可或缺的技術(shù)。
3. 醫學(xué)領(lǐng)域:提出輔助性診斷和治療方案
通過(guò)利用多模態(tài)人工智能來(lái)綜合分析電子病歷和檢查圖像等數據,以實(shí)現早期發(fā)現疾病和優(yōu)化治療計劃的研究正在醫學(xué)領(lǐng)域不斷推進(jìn)。例如,可以考慮讓多模態(tài)人工智能輸出對疾病的狀態(tài)和經(jīng)過(guò)進(jìn)行的多角度判斷、對癌癥復發(fā)時(shí)期進(jìn)行的預估、在診斷和決定治療方法時(shí)提供輔助性建議。在本例中,據稱(chēng)它不僅有助于預估再次就診的時(shí)間和選擇適當的治療方法,而且還可以通過(guò)提供適當的醫療來(lái)降低醫療成本,并通過(guò)消除屬人化來(lái)減輕醫務(wù)人員的負擔。多模態(tài)人工智能在醫療領(lǐng)域也有望做出廣范圍的貢獻。
4. 安保和監控領(lǐng)域:狀況判斷
使用傳統人工智能的安保攝像頭通過(guò)使用人工智能僅分析影像(圖像)來(lái)支持狀況判斷。但是,在實(shí)際的人類(lèi)監控業(yè)務(wù)中,除了視覺(jué)以外,還需要根據聲音、振動(dòng)、氣味以及與其他監控人員的交流等大量信息來(lái)對狀況進(jìn)行判斷。
人們認為綜合處理圖像和聲音等多種形式數據的多模態(tài)人工智能對于噪音和騷亂等滋事行為、打斗、擅自或非法進(jìn)入等復雜情況也能判斷其處于什么狀況。隨著(zhù)這些利用方法的研究和實(shí)用化的進(jìn)展,通過(guò)人工智能對監控業(yè)務(wù)提供的支持程度有望大幅提高。
5. 制造和開(kāi)發(fā)領(lǐng)域:對機器人控制和材料開(kāi)發(fā)提供支持
目前,工業(yè)機器人在制造現場(chǎng)的引進(jìn)數量正在顯著(zhù)增加。這些傳統工業(yè)機器人的動(dòng)作是通過(guò)程序指定機械運動(dòng)角度、速度、強度等,并組合圖像辨別等識別技術(shù)來(lái)進(jìn)行控制的。另一方面,使用多模態(tài)人工智能的機器人控制的研究不斷取得進(jìn)展,通過(guò)綜合和學(xué)習來(lái)自多種傳感器的數據等,機器人的判斷能力將變得比傳統機器人更進(jìn)一步提高,執行更精細的作業(yè)的可能性越來(lái)越大。作為一項不僅可以應用于制造領(lǐng)域,而且可以應用于醫療、護理、農業(yè)機器人等領(lǐng)域的技術(shù)而受到關(guān)注。
在開(kāi)發(fā)領(lǐng)域也能看到使用多模態(tài)人工智能的情況。例如,通過(guò)綜合處理自己獲得的實(shí)驗數據、論文等當中報告的物質(zhì)化學(xué)構造和組成、測量數據(顯微鏡圖像、光譜等),可以高精度預估該物質(zhì)的物理和化學(xué)特性,利用它可以在虛擬空間中高速進(jìn)行混合條件和成分的優(yōu)化等。該技術(shù)是材料信息學(xué)(MI:Materials informatics)的一種,有望幫助提高新材料探索等研究開(kāi)發(fā)的效率,例如幫助大幅減少時(shí)間和成本。
我們認為,除此之外,多模態(tài)人工智能在制造和工程中的應用今后也將繼續迅速發(fā)展,例如通過(guò)綜合來(lái)自配置在生產(chǎn)設備中的多種傳感器的數據信息來(lái)實(shí)現高精度的異常檢測,以及迄今為止一直很難實(shí)現的自動(dòng)化——通過(guò)機器人實(shí)現質(zhì)量檢查和維護活動(dòng)的自動(dòng)化等。
近年來(lái),主要人工智能平臺上都推出了能夠處理文本、圖像等多種形式數據的多模態(tài)人工智能服務(wù)。隨著(zhù)更多此類(lèi)平臺的出現并變得更加精良,多模態(tài)人工智能有望在商業(yè)和創(chuàng )意等寬廣的領(lǐng)域擴大應用。除了本文介紹的事例外,它還有望應用于體育、娛樂(lè )等多種領(lǐng)域。多模態(tài)人工智能及其進(jìn)步可以說(shuō)是目前非常值得關(guān)注的趨勢技術(shù)之一。
敬請期待后續...
評論