被ChatGPT帶飛的AIGC,能為垂直產(chǎn)業(yè)做些什么?(1)
本文從 AIGC 技術(shù) -> 產(chǎn)品 -> 業(yè)務(wù)應用和價(jià)值實(shí)現環(huán)節探討其發(fā)展路徑,并以產(chǎn)業(yè)實(shí)例探討 AIGC 如何才能在產(chǎn)業(yè)領(lǐng)域實(shí)現閉環(huán)和價(jià)值落地。
去年以來(lái)出現了 AIGC 熱潮,引發(fā)了 AIGC 及其應用話(huà)題的爆發(fā)性增長(cháng),不少人感慨強人工智能的時(shí)代已經(jīng)離我們不那么遙遠了。但是在熱潮的另一面,我們看到真正能落地的場(chǎng)景依然是鳳毛麟角,目前比較成功的應用主要集中在個(gè)人消費領(lǐng)域,而 AIGC 在產(chǎn)業(yè)中的應用大多仍然處于探索階段。
紅杉資本在 22 年 9 月就對 AIGC 做出了以下預判:文字類(lèi) AI 生成將在 2023 年進(jìn)入黃金時(shí)期,圖片類(lèi) AI 生成黃金時(shí)期將在 2025 年左右抵達,3D 和視頻類(lèi) AI 生成在 2023 年可能正處于草稿階段,進(jìn)入黃金時(shí)期或許在 2030 年。不可否認,文字與圖片的 AI 生成確實(shí)走在了前面,而 3D 模型、視頻和游戲生成仍在研發(fā)階段。
紅杉資本針對 AIGC 相關(guān)產(chǎn)品成熟預測
若考慮到 AIGC 產(chǎn)業(yè)應用,如在制造業(yè)、建筑業(yè)等巨型垂直實(shí)體領(lǐng)域中,AIGC 的 C/Content 內容將不能僅停留在圖片和文字的領(lǐng)域,而是需要進(jìn)入信息更為豐富的三維領(lǐng)域。接下來(lái),我們將從 AIGC 技術(shù) -> 產(chǎn)品 -> 業(yè)務(wù)應用和價(jià)值實(shí)現環(huán)節探討其發(fā)展路徑,并以產(chǎn)業(yè)實(shí)例探討 AIGC 如何才能在產(chǎn)業(yè)領(lǐng)域實(shí)現閉環(huán)和價(jià)值落地。
1.AIGC 技術(shù):從文字到圖片
從大家對 ChatGPT 越來(lái)越多的測試中可以看到,ChatGPT 不僅能對語(yǔ)義進(jìn)行解析和結構化,還能在此基礎上用 NLP 自然語(yǔ)言處理做數據分析。
ChatGPT 對內容進(jìn)行結構化處理和數據分析 - 佳格數據提供
事實(shí)上,以 Stable Diffusion 為首的一眾 AI 畫(huà)圖框架或者平臺,在去年更早的時(shí)候已經(jīng)引起了轟動(dòng)。雖然圖片相對文字來(lái)說(shuō)看上去信息含量要更為復雜,但是其技術(shù)成熟卻要比以 GPT 為首的文字生成來(lái)的更早一些,我們有必要從主流的開(kāi)源框架 Stable Diffusion 為例,回顧一下這些圖片 AIGC 框架是如何工作的。
Stable Diffusion 生成的圖片, 已經(jīng)有了比擬人類(lèi)畫(huà)家的能力
Stable Diffusion 主要有三個(gè)組成部分,每一個(gè)部分都有自己的神經(jīng)網(wǎng)絡(luò )。
1、CLIP 用于文字編碼器:以文字作為輸出的語(yǔ)義信息組成一個(gè) 77*768 的矩陣,CLIP 訓練 AI 同時(shí)進(jìn)行自然語(yǔ)言理解和計算機視覺(jué)分析。CLIP 可以決定圖像和文字提示的對應程度,比如逐步把建筑的圖像和 “建筑” 這個(gè)詞完全匹配起來(lái),而其能力訓練是通過(guò)全球 40 多億張帶文字描述的圖片實(shí)現的。
CLIP 的訓練集
2、UNET 及調度程序:這就是大名鼎鼎的擴散模型主程序(來(lái)自 CompVis 和 Runway 團隊于 2021 年 12 月提出的 “潛在擴散模型”(LDM / Latent Diffusion Model)),用于對噪聲進(jìn)行預測實(shí)現反向去噪的過(guò)程,進(jìn)而實(shí)現圖片在信息空間中的生成。如圖片所示,染料擴散的過(guò)程就像從圖片逐漸變成噪點(diǎn)的過(guò)程,而當研究人員對圖片增加隨機噪點(diǎn)讓 AI 反向學(xué)習整體過(guò)程,而后就擁有了一套從信息空間噪點(diǎn)圖反向生成圖片的模型。
Diffusion 模型反向去噪過(guò)程
用通俗的例子解釋?zhuān)绻谇逅镫S機滴入一些染料,隨著(zhù)時(shí)間推移會(huì )得到如下圖一樣絢麗的形狀。那么有沒(méi)有一種方法,能夠根據某一個(gè)特定時(shí)間特定的狀態(tài),反向推出初始的染料用量、順序、滴入水缸的初始狀態(tài)等信息呢?顯然,如果不借用 AI 的方式幾乎無(wú)法實(shí)現。
不同的染料滴入水中擴散出不同的形狀
3、信息空間到真實(shí)圖片空間的****:即把信息空間中的矩陣信息轉換為肉眼可見(jiàn)的 RGB 圖片。想象一下我們與人交流的過(guò)程,聽(tīng)到的聲音信號轉換為大腦能理解的文字信號存儲在腦中,這個(gè)過(guò)程稱(chēng)之為編碼。如果嘗試把文字信號通過(guò)某種語(yǔ)言表達出來(lái),這個(gè)過(guò)程可以稱(chēng)為解碼 —— 這里的表達方式可以是任意的語(yǔ)言,每種語(yǔ)言對應不同的****,解碼只是一種表達方式,本質(zhì)還是基于人類(lèi)腦海中對于某件事情的描述與理解。
StableDiffusion 從輸入到輸出全流程解讀
正是有了這幾個(gè)關(guān)鍵技術(shù)步驟的串聯(lián),Stable Diffusion 成功創(chuàng )建了一個(gè)無(wú)所不能的 AI 作圖機器人,不僅能理解語(yǔ)義,將其轉化為信息空間的信息流,還能夠在信息空間中通過(guò)模擬降噪創(chuàng )作,通過(guò)****還原成肉眼可見(jiàn)的圖片,這一充滿(mǎn)科幻色彩的過(guò)程放在 AI 不存在的世界來(lái)看,堪稱(chēng)神跡。
2.AIGC 技術(shù):從圖片到 3D 模型
圖片生成已經(jīng)取得了突破性的效果,但如果這些成果能夠進(jìn)一步優(yōu)化應用到更多領(lǐng)域,將有可能實(shí)現更大價(jià)值。我們也看到一些細分領(lǐng)域中的探索成果,比如經(jīng)由對場(chǎng)景的理解,通過(guò)不同的數據集加入和調參,可以實(shí)現對圖片生成更好的控制,而不僅是通過(guò)文字的不斷試錯來(lái)獲得更優(yōu)結果。
2.1 設計意向圖生成
2019 年初,用 GANs 生成的「這個(gè) XX 不存在」系列在海外獲得大量關(guān)注,在國內我們也看到企業(yè)推出了在細分領(lǐng)域的成果。而該團隊也于 22 年 8 月實(shí)驗性的在手機端推出了「AI 創(chuàng )意庫」,只需要輸入一句話(huà),對話(huà)機器人就能在一分鐘內快速理解語(yǔ)義,生成多張效果細膩貼近建筑概念方案的意向圖。在此之上,更是可以通過(guò)輸入一張已有的圖片,修改部分描述的關(guān)鍵字,「AI 創(chuàng )意庫」即可生成一系列的衍生圖片,輔助設計師在日常創(chuàng )作中尋找靈感。
小庫科技「這個(gè)建筑不存在」,GANs 模型生成建筑意象圖及迭代過(guò)程
左圖:小庫「AI 創(chuàng )意庫」生成,觸發(fā)語(yǔ)句 Louis Kahn 風(fēng)格,依山傍水的小型博物館;右圖:小庫「AI 創(chuàng )意庫」生成,基于左圖 Louis Kahn 風(fēng)格圖片,完成風(fēng)格切換至 Le Corbusier
為了使得「AI 創(chuàng )意庫」的效果更優(yōu),團隊做了一些新的探索:由于已有的算法和模型更多聚集在通用互聯(lián)網(wǎng)素材上,建筑相關(guān)的圖片、形容及風(fēng)格的數據儲備在專(zhuān)業(yè)程度顯然是不夠的。這里采取了一種針對建筑相關(guān)詞匯的特殊標識,組成一個(gè)微調的先驗數據集并將該數據集融合訓練,實(shí)現模型增強。通過(guò)建筑專(zhuān)業(yè)領(lǐng)域增強的新模型,形成了面向建筑行業(yè)專(zhuān)屬的 AI 創(chuàng )意庫,針對建筑類(lèi)描述短句,測試集優(yōu)品率相比原有模型提升了 13.6% 之多。
Google Dreambooth Fine-Tuning 算法示意
舉個(gè)例子,當輸入一張博物館圖片及一個(gè)詞匯 "Zaha Hadid(過(guò)世的全球著(zhù)名女建筑師)" 的時(shí)候,模型能夠理解需要將博物館的建筑風(fēng)格或特征往 Zaha Hadid 的作品靠攏,而不是在博物館中增加一個(gè) Zaha Hadid 的人物或畫(huà)像,抑或是在 AI 世界里創(chuàng )作一個(gè) Zaha Hadid 的卡通畫(huà)像 —— 這往往是通用模型會(huì )返回的結果之一。
經(jīng)過(guò)微調后的建筑模型,小庫「AI 創(chuàng )意庫」能充分理解 “Zaha Hadid” 這個(gè)特殊詞匯隱含意思
2.2 3D 模型生成
二維的圖片雖然精彩,但在產(chǎn)業(yè)應用中暫時(shí)還只是停留在 “意向圖庫” 的作用,未來(lái)如果要成為可以精準表達設計的成果,需要向 3D 和更高信息維度去邁進(jìn)。
在 2020 年 AIGC 沒(méi)有現在這么成熟的時(shí)候,上述團隊就在探索如何用 AI 生成 3D 模型,并在同濟大學(xué) DigitalFUTURES 工作坊教學(xué)中,公開(kāi)了其在研發(fā)中的從圖形生成圖像進(jìn)一步生成模型的算法,能看到當時(shí)的模型效果并不太理想,有價(jià)值的是實(shí)現了圖形 - 圖像 - 模型的聯(lián)動(dòng)。
2020 同濟大學(xué) DigitalFUTURES 工作坊小庫教學(xué)團隊成果,手繪圖形生成圖像進(jìn)而生成模型
第二年在同濟大學(xué) DigitalFUTURES 工作坊教學(xué)中,該團隊發(fā)布了一種通過(guò) GANs 學(xué)習衛星圖與真實(shí)三維模型之間關(guān)系,將衛星圖生成為真實(shí)三維模型的算法。該算法通過(guò)對衛星圖上不同的圖層元素進(jìn)行特征學(xué)習,能大致復原出衛星圖所對應的主要物體三維拉伸形體,預測不同物體投影所對應的原物體高度。當然,這種方法還存在一定的缺陷,只能在衛星圖場(chǎng)景中使用,難以積累其他場(chǎng)景中同類(lèi)圖片與三維形體之間的關(guān)系;其次是還原的三維形體只能粗略預測高度,其他細節需要通過(guò)算法重新生成,與真實(shí)的三維模型存在較大誤差,只能用于項目早期研判使用,應用場(chǎng)景有限。
城市三維模型分層特征提取訓練示意圖
2021 同濟大學(xué) DigitalFUTURES 工作坊小庫教學(xué)團隊成果,基于 GANS 的衛星圖重建三維模型
得益于 AIGC 算法的爆發(fā)、3D 生成算法的日益成熟,我們也看到垂直類(lèi) AI 企業(yè)開(kāi)始吸收更多先進(jìn)的技術(shù)與思路改善其模型,并在 3D-AIGC 的路線(xiàn)上有了一些新的嘗試方向。例如 OPENAI 推出了 Point-E 框架,該框架可以將任意二維圖片通過(guò)算法預測為點(diǎn)云,進(jìn)而通過(guò)點(diǎn)云去預測三維物件。
PointE 框架全過(guò)程示意圖
但是模型生成的質(zhì)量依然有一定的局限,而模型的不可用主要體現在以下三個(gè)方面:
1. 三維形體還原難:首先二維圖像數據比三維模型數據出現早,同時(shí)可獲取的二維圖像數據目前也比后者多,因此前者可作為訓練素材的量級更多,較少的三維模型訓練素材的泛化能力有限,難以還原最初的三維形體;
2. 材質(zhì)整體缺失:對于三維模型來(lái)說(shuō)最重要的一環(huán)是材質(zhì)的填充與選擇,然而對于A(yíng)I生成來(lái)說(shuō),從圖片直接推敲其材質(zhì)的方法尚未成熟,同樣材質(zhì)在不同的形狀、環(huán)境、光源下的表現都有所不同,而當這些變量都集中在一張圖片中時(shí),材質(zhì)重建幾乎不可能實(shí)現;
3. 生成的模型精度不達標:通過(guò)點(diǎn)云推敲的模型,通常是依賴(lài)于點(diǎn)云的密度重建物體表面 Mesh,如果點(diǎn)云過(guò)少物體會(huì )嚴重失真,甚至無(wú)法重建模型。
小庫團隊測試 Point- E 模型,左邊建筑圖片生成點(diǎn)云進(jìn)而模擬出右邊三維模型,遺憾得到的只是一堆無(wú)意義的點(diǎn)云模型,Point-E 暫時(shí)還無(wú)法理解一個(gè)建筑物的圖片
當然我們能理解當前的技術(shù)瓶頸,如果把目標定的稍微低一點(diǎn),選擇從三維建模軟件中生成的簡(jiǎn)單形體、做二維的截圖在 point-e 模型中重建,會(huì )意外地發(fā)現其效果比以上測試更佳,但也仍局限在 “初步草稿” 的范疇。這與訓練集有很大的關(guān)聯(lián)性,通過(guò)三維建模軟件生成各個(gè)視角的二維視圖是該模型最易獲取訓練數據的方法之一。
小庫團隊測試 Point-E 模型,針對建模軟件中選取一個(gè)簡(jiǎn)單三維模型做任意角度截圖,重建三維模型,往往有還不錯的效果
綜上來(lái)看,從文字 -> 圖片 -> 點(diǎn)云 -> 三維物體的技術(shù)路線(xiàn)固然令人驚嘆,但如果要應用在產(chǎn)業(yè)領(lǐng)域,還有很多工作需要 AI 科學(xué)家們去做。
然而,是否只有這一條技術(shù)路線(xiàn)去實(shí)現三維模型的生成?
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。