2022穩居C位的AIGC,到底有什么用?
元宇宙之外,AIGC有其貼近產(chǎn)業(yè)的一面。
如果總結 2022 年十大技術(shù)趨勢,AIGC(AI-Generated Content)一定能穩站一席。
一方面,市場(chǎng)融資火爆,AIGC 創(chuàng )業(yè)公司 Jasper. AI、Stability AI 都分別獲得了超 1 億美元的融資,資本都在盯著(zhù)這個(gè)具有想象空間的賽道。
另一方面,技術(shù)呈現擴圈之姿,尤其在繪畫(huà)領(lǐng)域,一幅名為《太空歌劇院》的 AI 畫(huà)作甚至拿到了美國科羅拉多州博覽會(huì )藝術(shù)比賽的一等獎。
AI畫(huà)作《太空歌劇院》
但沉下心來(lái)觀(guān)察這個(gè)賽道會(huì )發(fā)現這樣的境況:AIGC 離產(chǎn)業(yè)應用有點(diǎn)遠。一些人會(huì )將生成式 AI 出色的表現與元宇宙等熱門(mén)概念聯(lián)系到一起,認為 AIGC 即將成為構建元宇宙的重要工具,徹底變革人類(lèi)的生活方式,這一愿景為一些背靠生成式 AI 大模型的初創(chuàng )公司帶來(lái)了大筆融資,但距離落地成真還有一段時(shí)間。
生成式 AI 落地真的還有一段時(shí)間嗎?對于手握精尖技術(shù)去找應用、找落地的企業(yè)或許是這樣的,但對于已經(jīng)在產(chǎn)業(yè)中摸爬滾打了 20 余年的京東來(lái)說(shuō),從 2017 年喊出“技術(shù)!技術(shù)!技術(shù)!”,到用 AI 技術(shù)武裝自身業(yè)務(wù),再到把反復歷練的產(chǎn)業(yè) AI 能力通過(guò)京東云對外輸出服務(wù)產(chǎn)業(yè),京東將 AI 能力滲透到了產(chǎn)業(yè)的毛細血管里,潤物細無(wú)聲般走進(jìn)了百姓的生活,比如,當前應用最廣泛的就是交互數字人。
這是京東云推出的言犀虛擬數字人主播,高性?xún)r(jià)比和不錯的交互體驗,讓 TA 獲得了眾多商家的青睞。在雙十一期間,言犀虛擬數字人服務(wù)近 200 家付費品牌,帶來(lái)數百萬(wàn) GMV 轉化。
從技術(shù)視角來(lái)看,當前數字人是 AIGC 技術(shù)的集大成者,包含了生成圖片、語(yǔ)言、音頻、視頻和 3D 等等。
從產(chǎn)業(yè)視角來(lái)看,在京東內部或許沒(méi)有 AIGC 這樣一個(gè) “時(shí)髦” 的稱(chēng)呼,但在日常業(yè)務(wù)中,他們早就開(kāi)始用技術(shù)幫助商家生成商品文案、對話(huà)文本、外呼語(yǔ)音…… 現在還能生成數字人幫商家賣(mài)貨,其應用范圍貫穿京東的整個(gè)數智供應鏈。同時(shí),他們的各種 AIGC 模型也從這條供應鏈上 “學(xué)習” 新的東西,把更好的技術(shù)、服務(wù)向外輸出,讓我們看到了這套技術(shù)更貼近產(chǎn)業(yè)的一面。
與數智供應鏈深度耦合的 AIGC
AIGC 并不是一個(gè)新概念,其萌芽階段可以追溯到上世紀 50 年代,90 年代從實(shí)驗性向實(shí)用性逐漸轉變。從 2014 年起,隨著(zhù)以生成對抗網(wǎng)絡(luò )(GAN)為代表的深度學(xué)習算法的提出和迭代更新,AIGC 迎來(lái)了新時(shí)代,生成內容百花齊放,效果逐漸逼真直至人類(lèi)難以分辨。2018 年,AI 生成的畫(huà)作以 43.25 萬(wàn)美元的價(jià)格被成功拍賣(mài),引發(fā)各界關(guān)注。
彼時(shí),在京東 AI 團隊的研究中,AI 作畫(huà)已不是新鮮事,他們的研究涉及多模態(tài)、大模型等方面的基礎研究以及 AI 寫(xiě)詩(shī)、AI 生成文案、AI 畫(huà)圖、AI 寫(xiě)書(shū)法等一些實(shí)用性研究,為之后的 AIGC 產(chǎn)品問(wèn)世打下了基礎。其中一篇典型論文成果 AttnGAN 引用過(guò) 1000 多次,是 AIGC 領(lǐng)域的經(jīng)典工作之一。
AttnGAN 生成結果示例。
但同時(shí),京東也意識到,如果真的想用這些 AIGC 技術(shù)變革行業(yè),僅靠研究是不夠的,還需要結合業(yè)務(wù)實(shí)際來(lái)解決一些工程化難點(diǎn)。于是,從 2019 年開(kāi)始,生成式 AI 如何一頭扎進(jìn)京東的多個(gè)供應鏈環(huán)節成了團隊的第一要務(wù)。
供應鏈是一個(gè)極端復雜的、上下貫通的、跟千行百業(yè)都息息相關(guān)的實(shí)體鏈條,小至快消品、3C 電子、服裝,大至汽車(chē)、高鐵、飛機制造…… 只要有生產(chǎn),有流轉,有消費,就有供應鏈。作為一家以供應鏈技術(shù)和服務(wù)為底層邏輯、擁有復雜供應鏈場(chǎng)景的新型實(shí)體企業(yè),京東在數智供應鏈中醞釀以 AIGC、語(yǔ)音識別、語(yǔ)義理解等為代表的產(chǎn)業(yè) AI 能力,然后再通過(guò)與產(chǎn)業(yè)的深度融合,釋放其 “生萬(wàn)物” 的潛力,其價(jià)值無(wú)疑是巨大的。但在此之前,他們必須先解決這些 AIGC 模型在供應鏈各環(huán)節的應用效果和效率的問(wèn)題。
比如,語(yǔ)音生成的難點(diǎn)在于如何讓生成的語(yǔ)音更像真人,傳統的 TTS(語(yǔ)音合成)技術(shù)往往會(huì )因為缺乏環(huán)境音和語(yǔ)調、重音、情緒方面的變化而讓人感覺(jué)不真實(shí)。
京東語(yǔ)音算法負責人張政臣介紹,這種不真實(shí)在一定程度上是由訓練數據造成的,因為當前的大部分語(yǔ)音數據是在錄音棚里錄的,導致生成結果偏播音主持場(chǎng)景,用到直播等場(chǎng)景中就不太合適。
因此,京東的語(yǔ)音團隊首先考慮從語(yǔ)料入手來(lái)解決這個(gè)問(wèn)題,這也是京東龐大供應鏈的優(yōu)勢所在:這條數智化供應鏈每天都會(huì )產(chǎn)生大量真實(shí)場(chǎng)景的對話(huà),既有客服的也有主播的,拿這些語(yǔ)料訓練出的語(yǔ)音模型生成結果明顯要更加自然。此外,他們也用了一些技術(shù)性的方法,比如對于某些語(yǔ)氣詞、聲音的韻律變化單獨建模和控制。
當然,也有很多客戶(hù)會(huì )提出使用真人錄音的需求,同時(shí)又要往里面加入一些變量,比如把一段外呼錄音中的地點(diǎn)由 “經(jīng)海路” 改成 “科創(chuàng )街” 或其他幾百個(gè)不同的地址。由于錄音成本很高,被改動(dòng)的變量是需要用技術(shù)來(lái)合成的,同時(shí)又要保證合成的聲音和原有的錄音無(wú)縫銜接,聽(tīng)不出差別。
得益于多年來(lái)利用供應鏈數據訓練出的大型基線(xiàn)模型,京東的語(yǔ)音團隊現在已經(jīng)能夠以一種低成本的方式解決這個(gè)問(wèn)題,只需要少量的數據(比如錄音師的十幾句話(huà))就能實(shí)現個(gè)性化的 TTS,達到之前需要很多訓練數據才能達到的效果。
京東言犀語(yǔ)音生成片段音頻:00:0000:15京東言犀語(yǔ)音生成片段。其中,「王師傅、燒肉醬、采購專(zhuān)員」均為編輯生成,過(guò)渡平滑自然。
文本生成最大的問(wèn)題是“可控性”,即想辦法讓模型生成我們想要的內容。
“我們早期的模型可以生成很流暢的文本,但是很多時(shí)候我們發(fā)現,可控這件事并沒(méi)有得到很好的解決,大家還是沉浸于生成超出想象的、天馬行空的內容。但是在真正的產(chǎn)業(yè)應用中,(模型)必須可解釋、可控?!本〇| NLP 算法工程師李浩然回憶說(shuō)。
具體到言犀虛擬數字人這樣的商品營(yíng)銷(xiāo)文案自動(dòng)生成,“可控”就意味著(zhù)模型生成的文本必須滿(mǎn)足可讀性(Readability)、忠實(shí)性(Faithfulness)、信息性(Informativeness)等幾個(gè)要求,長(cháng)文本(比如直播劇本)還要具備多樣性(Diversity)和篇章連貫性(Coherence)。京東 NLP 團隊提出的基于領(lǐng)域知識增強的預訓練語(yǔ)言模型 K-PLUG 就是用來(lái)解決這些問(wèn)題的。
在 K-PLUG 誕生之前,一些通用的預訓練語(yǔ)言模型也可以用來(lái)生成商品文案,但在商品賣(mài)點(diǎn)的獨特性等方面仍有所欠缺,比如下面這段油煙機的文案:
為了讓模型更精通電商場(chǎng)景,K-PLUG 首先會(huì )定義電商領(lǐng)域的領(lǐng)域知識,包括商品的知識圖譜、要素知識、類(lèi)別知識以及賣(mài)點(diǎn)知識,然后針對這些不同的知識去設計不同的下游任務(wù)。有了這些知識,模型就學(xué)會(huì )了如何去 “閱讀” 商家給的商品說(shuō)明材料以及去哪兒找規格、賣(mài)點(diǎn)等信息,然后通過(guò) “Only Copy” 的機制將一些關(guān)鍵信息復制到生成文本中。
更重要的是,這里用到的電商知識是京東供應鏈已經(jīng)積累了很多年的,覆蓋超過(guò) 1000 萬(wàn)種自營(yíng)商品。有了這些知識做基礎,K-PLUG 僅用 1 億參數量(約為 Google T5 的三分之一)就超過(guò)了 Google T5 的商品文案生成效果,而且因為體積小,更容易在業(yè)務(wù)中部署,實(shí)用性非常強。
據統計,基于 K-PLUG 的商品文案生成模型已經(jīng)覆蓋了京東的 3000 多個(gè)三級品類(lèi),累計生成文案 30 億字,應用于京東發(fā)現好貨頻道、搭配購、AI 直播帶貨等,累計帶來(lái)超過(guò) 3 億元 GMV。
目前,京東的 NLP 團隊還在進(jìn)一步優(yōu)化 K-PLUG 的長(cháng)文本生成效果,以適應直播劇本撰寫(xiě)等長(cháng)文本場(chǎng)景。據悉,他們將嘗試利用京東平臺上現有的大量長(cháng)文本以及領(lǐng)域知識來(lái)訓練更大的模型,使其生成的文本句與句之間更加有邏輯。
當然,未來(lái)的這個(gè)模型也不會(huì )很大(參數量約為 10 億),因為在使用時(shí),大模型帶來(lái)的價(jià)值和成本有一個(gè)平衡點(diǎn),在關(guān)注如何訓練超大規模參數模型、提高模型通用性的同時(shí),京東更關(guān)注大模型在供應鏈各環(huán)節的應用效果。
“我們(在做業(yè)務(wù)的時(shí)候)并沒(méi)有追求千億級、萬(wàn)億級的生成式大模型,因為它們在實(shí)際應用的時(shí)候會(huì )有多方面的問(wèn)題,比如對服務(wù)器要求很高,這樣的模型在很多場(chǎng)景下可能都用不起來(lái),所以我們會(huì )從效率的角度去做模型的設計。在有些場(chǎng)景下,即使是 10 億參數的模型,我們也會(huì )通過(guò)蒸餾、量化的方式讓它進(jìn)一步提升效率,減少對服務(wù)器配置的要求。很多時(shí)候,我們的推理(理解或生成)模型既支持 GPU 的部署環(huán)境,也支持 CPU 的部署環(huán)境?!本〇|集團高級算法總監吳友政解釋說(shuō)。
“融”生萬(wàn)物,向“實(shí)”而升
經(jīng)過(guò)幾年的發(fā)展,當前的 AIGC 算法已經(jīng)具備了真實(shí)復刻和創(chuàng )造某類(lèi)既定內容的能力,同時(shí)相關(guān)模型對簡(jiǎn)單場(chǎng)景的內容生成也取得了比較好的成果。但面對產(chǎn)業(yè)供應鏈中多樣性變化和復雜場(chǎng)景內容生成的挑戰,現有 AIGC 的算法能力仍需進(jìn)一步提升。
舉例來(lái)說(shuō),當前的算法已經(jīng)可以應對高清人臉和數字人頭像的生成,但在動(dòng)畫(huà)視頻內容的生成上仍然稍顯乏力,因為后者的動(dòng)態(tài)復雜性和可能性的復雜程度以幾何倍數增長(cháng)。
“這意味著(zhù)我們現在的算法其實(shí)已經(jīng)不再是單點(diǎn)迭代,而是多種算法互相之間聯(lián)合優(yōu)化,變成一種系統級的優(yōu)化?!本〇|集團副總裁、智能產(chǎn)品與服務(wù)部總裁何曉冬坦言。
他回憶道,以前做 AI 算法的時(shí)候會(huì )局限于怎么做一個(gè)單點(diǎn),比如語(yǔ)音識別、圖像識別,包括把這個(gè)單點(diǎn)的能力上云,讓別人調用。但從供應鏈的角度來(lái)看,很多技術(shù)要在鏈條里面產(chǎn)生價(jià)值,就必然是融合性的。
這種 “融合” 不僅是不同模態(tài)的技術(shù)(語(yǔ)音、文本、圖像等)之間的融合,也包括技術(shù)與各行各業(yè)的特異性場(chǎng)景的深度融合。
當然,融合的前提是前期有比較全面的積累,而這正是京東云做 AIGC 的優(yōu)勢所在:京東自身的供應鏈環(huán)節就足夠多,足夠復雜,每天都會(huì )提出很多新的挑戰,這幫助他們擺脫了單點(diǎn)技術(shù)思維,更多地從產(chǎn)業(yè)需求的角度去看這些技術(shù),對每個(gè)方向都做更全面的思考和更深刻的理解。
這種融合性的做事方法已經(jīng)幫助京東云在 “生萬(wàn)物” 的道路上邁出了很大的一步,除了常規的對話(huà)生成、文本生成、語(yǔ)音生成等應用外,京東云還會(huì )用融合性的 AIGC 去做數字人生成和數字孿生。
由實(shí)而生,向實(shí)而升。京東是實(shí)體經(jīng)濟高質(zhì)量發(fā)展的見(jiàn)證者,更是深度的參與者。目前,他們正通過(guò)京東云向千行百業(yè)釋放自己的 AIGC 能力,這些能力降低了內容制作分發(fā)門(mén)檻,讓更多的中小企業(yè)可以參與到數字經(jīng)濟中來(lái),進(jìn)而實(shí)現數字化轉型,這是實(shí)現產(chǎn)業(yè)升級的關(guān)鍵一步。
以實(shí)助實(shí)、增強實(shí)體經(jīng)濟活力的效果,這既是 AIGC 的機會(huì )所在,也是京東云做 AIGC 的使命所在。
參考鏈接:
https://ieeexplore.ieee.org/document/8578241
http://www.caict.ac.cn/kxyj/qwfb/bps/202209/P020220902534520798735.pdf
https://zhuanlan.zhihu.com/p/530855309
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。