在A(yíng)I“必爭之地”,全球最大規模人工智能巨量模型誕生
當學(xué)界和業(yè)界均相信“大力出奇跡”的時(shí)候,就該大模型閃亮登場(chǎng)了。
9月28日,浪潮人工智能研究院發(fā)布全球最大人工智能巨量模型——源1.0。
這個(gè)幾乎把近5年中文互聯(lián)網(wǎng)的浩瀚內容全部讀完,在數據量、參數規模與模型精度方面均居全球之最的大模型,將以開(kāi)源、開(kāi)放、共享的策略,降低巨量模型研究和應用的門(mén)檻,推動(dòng)AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化的進(jìn)步。
中國工程院院士王恩東認為,人工智能的大模型時(shí)代已經(jīng)到來(lái),利用先進(jìn)算法,整合大規模數據,匯聚大量算力,訓練出巨量人工智能模型是未來(lái)的發(fā)展方向……
“博學(xué)”的模型 |
“戰鼓催征千嶂寒,陰陽(yáng)交會(huì )九皋盤(pán)?!?/span>
這句詩(shī)出自哪位邊塞詩(shī)人之手?出自“初唐四杰”抑或“大歷才子”?你也許有些恍惚,然而這些都不是,它出自一個(gè)名為“源1.0”的大模型。
大力出奇跡 | 最大中文語(yǔ)言模型 |
前不久,浪潮招募近百人參與了一場(chǎng)“類(lèi)圖靈測試”,將源1.0大模型生成的對話(huà)、新聞、詩(shī)歌、對聯(lián),小說(shuō)續寫(xiě)5類(lèi)作品混雜在文學(xué)大師的作品中,由測試者判斷該作品是“人為”還是“機為”。
測試中,人們會(huì )把自認為優(yōu)秀的作品歸功于人類(lèi),不夠理想的判定為機器創(chuàng )作。
最后的測試結果“令人振奮”,在源1.0的挑戰測試中,人們能夠準確分辨人與“源1.0”作品差別的總體成功率低于50%。
“測試者的平均區分正確率是49.16%?!崩顺比斯ぶ悄苎芯吭菏紫芯繂T吳韶華對《中國科學(xué)報》說(shuō),“這意味著(zhù),多數人不能辨別作品出自文學(xué)大師之手還是由源1.0創(chuàng )作?!?/span>
在5類(lèi)測試作品中,新聞類(lèi)作品誤判率最高,達到57.88%,即大多數人很難分別作品到底是人類(lèi)作品還是機器創(chuàng )作。
在記者看到的一篇關(guān)于“中國稀土行業(yè)存在問(wèn)題”的新聞作品中,從文體、布局到遣詞造句,妥妥的規范“新華體”,難怪近6成參與測試者難以辨別。
即使誤判率最低的詩(shī)歌類(lèi)作品(37.69%),如文章開(kāi)始提到那兩句詩(shī),也字順意達,不仔細推敲,確實(shí)難以想到是機器創(chuàng )作。
圖靈測試是判斷機器是否具有智能的經(jīng)典方法。通常認為,進(jìn)行多次測試后,如果人工智能讓平均每個(gè)參與者做出超過(guò)30%的誤判,那么這臺機器就通過(guò)了測試,并被認為具有人類(lèi)智能。
以類(lèi)圖靈測試判斷,這個(gè)能詩(shī)善文,可以和人對話(huà)、能給我們講故事的源1.0 有資格被稱(chēng)為目前最“博學(xué)”的模型。
那么,是什么讓機器如此“聰明”?
“認知智能是人工智能研究者追求的方向之一?!敝袊こ淘涸菏客醵鳀|告訴《中國科學(xué)報》,“除了加速深度學(xué)習技術(shù),開(kāi)發(fā)全新的算法范式研究方向外,大規模數據訓練超大參數量的巨量模型也是未來(lái)發(fā)展方向,即利用先進(jìn)的算法,整合大規模的數據,匯聚大量算力,訓練出巨量人工智能模型?!?/span>
2020年6月,OpenAI發(fā)布了參數量高達1750億的大模型GPT-3,該模型一推出就引起人工智能學(xué)界和業(yè)界的轟動(dòng)。
“語(yǔ)言模型是全球AI界的‘必爭之地’?!币晃蝗斯ぶ悄苎芯款I(lǐng)域的專(zhuān)家說(shuō),“參數規模大到遠超我們想象的時(shí)候,會(huì )發(fā)生一些難以解釋的現象?!?/span>
浪潮信息副總裁劉軍同樣認為,生命從簡(jiǎn)單進(jìn)化到復雜,這種智能水平本身就是一種模型。如果把模型比作元宇宙中的生命,大模型的這種綜合系統能力,可能會(huì )決定未來(lái)數字世界和智能世界里的智能水平。“人的神經(jīng)元突觸超過(guò)100萬(wàn)億,而現有大模型的參數量還遠遠不夠,所以我們還有很遠路要走”。
伴隨著(zhù)人工智能應用廣度與深度的不斷提升,眾多行業(yè)、諸多業(yè)務(wù)場(chǎng)景的智能化創(chuàng )新需求日益增多。
然而當前大多數AI模型只能用于某一特定領(lǐng)域,通用性不強,這對AI技術(shù)提出了挑戰,也限制了AI的產(chǎn)業(yè)化進(jìn)程。
大模型在今天初露崢嶸絕非偶然。技術(shù)、算力、資源、需求等多因素的“風(fēng)云際會(huì )”,讓被AI業(yè)界視為“核力量”的大模型嶄露頭角。
源1.0幾乎把近5年整個(gè)中文互聯(lián)網(wǎng)的浩瀚內容全部讀完,在收集并清洗數據后,最終獲得5TB高質(zhì)量數據,成為迄今業(yè)界最大的高質(zhì)量中文數據集。
在語(yǔ)言智能方面,源1.0獲得中文語(yǔ)言理解評測基準CLUE榜單零樣本學(xué)習和小樣本學(xué)習兩類(lèi)總榜冠軍,獲得小樣本學(xué)習的文獻分類(lèi)、商品分類(lèi)、文獻摘要識別、名詞代詞關(guān)系等4項任務(wù)冠軍。
共建“通天塔” |
“在數據量、參數規模與模型精度方面,源1.0均居全球之最?!崩顺比斯ぶ悄苎芯吭菏紫芯繂T吳韶華說(shuō)。
對標OpenAI的GPT-3,源1.0參數規模為2457億,訓練采用的中文數據集達5TB。相比GPT-3模型1750億參數量和570GB訓練數據集,源1.0參數規模領(lǐng)先40%,訓練數據集規模領(lǐng)先近10倍。
“得益于我們設計模型時(shí),對精度和計算性能的協(xié)同?!眳巧厝A說(shuō),“在算法上,我們解決了巨量模型訓練不穩定的業(yè)界難題,提出穩定訓練巨量模型的算法,打造了巨量模型推理方法創(chuàng )新;在數據方面,我們生成了迄今業(yè)界最大的高質(zhì)量中文數據集;在算力上,我們通過(guò)算法與算力協(xié)同優(yōu)化,極大提升了計算效率,在實(shí)現業(yè)界訓練性能第一的同時(shí),還達到了業(yè)界領(lǐng)先的精度?!?/span>
人工智能模型目前存在諸多挑戰。
一是語(yǔ)言模型的通用性不高,一個(gè)模型專(zhuān)用于特定領(lǐng)域,換個(gè)地方就效果欠佳。而訓練超大規模模型能一定程度上解決通用性問(wèn)題,可以被應用于翻譯、問(wèn)答、文本生成等,涵蓋自然語(yǔ)言理解的所有領(lǐng)域,可被廣泛地應用于各種AI場(chǎng)景。
二是模型開(kāi)發(fā)成本高、周期長(cháng)。而經(jīng)過(guò)預訓練的大模型可以讓研究機構和企業(yè)“不必從0做起,可以在大模型的基礎上,從60、或者從90開(kāi)始做到100”。
“通過(guò)一個(gè)預訓練的大模型,面向任務(wù)做小樣本學(xué)習、零樣本學(xué)習以及微調,可用于各行各業(yè)?!眳巧厝A說(shuō),“大模型最重要的優(yōu)勢是進(jìn)入大規??蓮椭频墓I(yè)落地階段,只需小樣本的學(xué)習也能達到比以前更好的效果,且模型參數規模越大這種優(yōu)勢越明顯,這能大大降低各類(lèi)用戶(hù)的開(kāi)發(fā)使用成本?!?/span>
發(fā)展大模型曾被稱(chēng)作“富人的燒錢(qián)游戲”。OpenAI為開(kāi)發(fā)GPT-3花費了10億美元,研發(fā)團隊用了1萬(wàn)個(gè)GPU,訓練了1個(gè)月。
國內某課題組為進(jìn)行一項較復雜的計算,購置了數臺服務(wù)器。運行起來(lái)后,該團隊負責人坦言,“光電費每天得1萬(wàn)元”。
因為在算法、軟硬件適配方面做了大量?jì)?yōu)化,源1.0比GPT-3用的CPU更少,訓練時(shí)間更短。這讓源1.0一定程度上摘下了“富人燒錢(qián)游戲”的帽子。
同時(shí),得益于浪潮在服務(wù)器和人工智能計算方面的長(cháng)期投入和深厚的積累,浪潮開(kāi)發(fā)大模型就如魚(yú)得水。浪潮并未細致切割出開(kāi)發(fā)源1.0大模型到底投入了多大人力物力,但相信這也不會(huì )是個(gè)小數字。
在源1.0發(fā)布的專(zhuān)家研討會(huì )前,幾位自然語(yǔ)言處理方面的專(zhuān)家前后到場(chǎng)。
因為同在一個(gè)研究領(lǐng)域,他們或是故交、或相互聽(tīng)說(shuō)過(guò)姓名,見(jiàn)面聊起當前大模型的熱度,談笑間,“這(發(fā)展大模型)是一場(chǎng)新的‘軍備競賽’”的共識已經(jīng)達成。
學(xué)界普遍認為,大模型猶如“望遠鏡”“顯微鏡”一樣,當人們沒(méi)有這些設備時(shí),不知道瀚瀚宇宙和原子分子等微觀(guān)世界到底有什么,是什么樣。有了大模型,人類(lèi)或許就能發(fā)現一番嶄新的天地。
因此,不管實(shí)力雄厚的頭部企業(yè)、研究機構,還是課題小組、單個(gè)研究人員,都期望能盡快用上大模型。
業(yè)內人士認為,別說(shuō)千億量級的模型,百億量級的模型對研究機構來(lái)說(shuō)都難實(shí)現。而且,業(yè)界和學(xué)術(shù)界非常希望大模型能開(kāi)放共享,開(kāi)放模型可以讓大家一起來(lái)開(kāi)發(fā)應用,優(yōu)化和構建共同生態(tài)。
“開(kāi)放、開(kāi)源、共享,是我們做這個(gè)事情的目的?!眲④娬f(shuō),“我們不希望這么一個(gè)強大的武器有很高的門(mén)檻,成為少數人的專(zhuān)利,我們希望把它變成一個(gè)普惠性的能力建設?!?/span>
劉軍認為,巨量數據、巨量算法和巨量算力正在成為邁向通用人工智能的重要路徑。巨量模型最后會(huì )變成創(chuàng )新的源頭,變成不同應用場(chǎng)景里快速產(chǎn)生模型的源頭。
“浪潮源1.0大模型只是一個(gè)開(kāi)始,它只是提供一片廣闊的肥沃土壤。浪潮未來(lái)將定向開(kāi)放大模型API,服務(wù)于元腦生態(tài)社區內所有開(kāi)發(fā)者,供全球的開(kāi)發(fā)人員在我們的平臺上開(kāi)發(fā)應用于各行各業(yè)的應用程序?!眲④娬f(shuō),“源1.0將面向學(xué)術(shù)機構和產(chǎn)業(yè)界用戶(hù)開(kāi)源,降低巨量模型研究和應用的門(mén)檻,推動(dòng)AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化的進(jìn)步,為國家在人工智能研究創(chuàng )新和產(chǎn)業(yè)發(fā)展作出貢獻?!?/span>
大模型時(shí)代已經(jīng)到來(lái),如果頭部企業(yè)能站在行業(yè)發(fā)展的高處,以開(kāi)源、開(kāi)放、共享的理念來(lái)協(xié)同發(fā)展大模型,也許一場(chǎng)高損耗的“軍備競賽”會(huì )消弭于無(wú)形,一座通向智能世界的“通天塔”或許就能建成。
編輯 | 趙路
排版 | 郭剛
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。