跨越鴻溝!全球最大AI巨量模型正式開(kāi)源
“貧窮限制了我們的想象力?!眲④婏L(fēng)趣地說(shuō),“以前我們沒(méi)有相應資源、也不具備相關(guān)技術(shù),不知道有更大的算力、更大的數據、更大的模型后能干什么。但今天我們有條件這么做,我認為這就是科技發(fā)展的趨勢,它能讓我們更快、更強?!?/span>
大模型的“浪潮”正奔涌向前。
10月26日,在“2021人工智能計算大會(huì )(AICC 2021)”上,浪潮人工智能研究院宣布:正式開(kāi)放源1.0的API(應用程序編程接口),開(kāi)放高質(zhì)量中文數據集,開(kāi)源該大模型的訓練、推理及應用代碼,并和合作伙伴一起,推動(dòng)面向多元AI芯片的模型移植開(kāi)發(fā)。
距發(fā)布全球最大人工智能巨量模型——源1.0不到1個(gè)月時(shí)間,浪潮人工智能研究院就邁出了開(kāi)源開(kāi)放的步伐。如此緊鑼密鼓的行動(dòng),浪潮將推動(dòng)大模型向何處去?
智慧之
“智慧時(shí)代即將到來(lái)。”在2021人工智能計算大會(huì )上,中國工程院院士王恩東說(shuō),“算力已經(jīng)成為智慧時(shí)代的決定性力量,面對指數級增長(cháng)的戰略需求,計算產(chǎn)業(yè)正面臨多元化、巨量化、生態(tài)離散化交織的趨勢與挑戰。”
王恩東認為,當前多樣化的智能場(chǎng)景需要多元化的算力,巨量化的模型、數據和應用規模需要巨量的算力,算力已經(jīng)成為人工智能繼續發(fā)展的重中之重;另一方面,從芯片到算力的轉化依然存在巨大鴻溝,多元算力價(jià)值并未得到充分釋放。
目前,AI芯片架構五花八門(mén),指令集不同,無(wú)法兼容,而面向芯片的編程庫又跟芯片綁定,靈活性差。小公司只能做其中的一個(gè)環(huán)節,這造成生態(tài)的縱向不通;大公司希望構建封閉的系統,這造成了生態(tài)的橫向不通。
“大模型已經(jīng)成為全球人工智能競爭的戰略制高點(diǎn),成為應對新挑戰的必然選擇?!崩顺毙畔⒏笨偛脛④娬f(shuō),“但大模型對于算力、算法和數據的要求,對協(xié)同創(chuàng )新能力的要求非常高,從浪潮自身產(chǎn)業(yè)發(fā)展策略、競爭優(yōu)勢及能力儲備來(lái)說(shuō),我們很適合做這個(gè)(大模型)?!?/span>
浪潮人工智能研究院首席研究員吳韶華介紹說(shuō),源1.0有2457億的參數,訓練部署一個(gè)完整的模型副本需要304塊GPU。為保證精度、加速訓練性能,研究團隊在模型算法上開(kāi)展了一系列創(chuàng )新,解決了大模型開(kāi)發(fā)不穩定這一業(yè)界難題,最后在2128塊GPU集群上取得了優(yōu)異的性能。
對比GPT-3完成訓練需要1萬(wàn)塊GPU、1750億參數量和570GB訓練數據集,源1.0參數規模領(lǐng)先40%,訓練數據集規模領(lǐng)先近10倍。
為訓練源1.0,研究團隊清洗了近860TB的互聯(lián)網(wǎng)數據,開(kāi)發(fā)出5TB的業(yè)界最大規模高質(zhì)量中文數據集。
精度方面,源1.0在中文權威的自然語(yǔ)言處理任務(wù)CLUE零樣本學(xué)習和小樣本學(xué)習榜單上均排名第一。同時(shí),它也在中文問(wèn)答任務(wù),如WebQA上有大幅度的精度提升,成為當前領(lǐng)先的中文自然語(yǔ)言處理模型。
劉軍介紹說(shuō),開(kāi)發(fā)AI服務(wù)器的系統需要處理超過(guò)1萬(wàn)個(gè)零部件,其中有50多類(lèi)專(zhuān)用芯片,包含30多個(gè)技術(shù)方向,有100多種傳輸協(xié)議需要優(yōu)化,同時(shí)涉及熱、電、材料、化學(xué)、流體力學(xué)等學(xué)科和一系列復雜的問(wèn)題,其“技術(shù)難度和復雜程度已經(jīng)達到當前AI系統的巔峰”。而開(kāi)發(fā)大模型的難度也很大,不但要在巨量數據、超大規模分布式訓練及巨量模型算法框架等方面保證可靠性,還要解決大模型計算和算力調度等多方面的難題。
“進(jìn)入大模型時(shí)代,我們很多用戶(hù)和合作伙伴已無(wú)法自己去完成這樣一個(gè)大模型的研發(fā)、訓練和交互工作了?!眲④娬f(shuō),“從算力行業(yè)發(fā)展來(lái)說(shuō),我們一定要幫助用戶(hù)和合作伙伴,推動(dòng)人工智能向生態(tài)化、產(chǎn)業(yè)化發(fā)展?!?/span>
匯涓成“流
在人工智能領(lǐng)域,免費、共享、開(kāi)放和開(kāi)源是幾個(gè)不同的概念。即使同為開(kāi)源,開(kāi)到什么程度,到代碼、數據集、API還是指令集的區別也很大。
研發(fā)源1.0之前,吳韶華團隊曾測試過(guò)包括GPT-3之類(lèi)的開(kāi)源模型。結果發(fā)現,使用這些模型會(huì )受到各種限制,有些進(jìn)入門(mén)檻很高,有些所謂的開(kāi)源實(shí)際上很難真正使用。
“浪潮‘源1.0’這次的開(kāi)源非常徹底,從數據集、源代碼到API等,此外,浪潮人工智能研究院也會(huì )與伙伴一起,基于‘源1.0’的模型共同開(kāi)展針對多元AI芯片的模型移植工作?!眲④娬f(shuō),“我們不希望這種巨量模型成為人工智能研究的藩籬?!?/span>
目前,浪潮主要針對三類(lèi)對象開(kāi)放合作:一是大學(xué)或科研機構的人工智能研究團隊,二是元腦生態(tài)合作伙伴,三是智能計算中心。這種開(kāi)放在用戶(hù)層面是產(chǎn)學(xué)研用全覆蓋,在內容上是從底層開(kāi)始徹底的開(kāi)源開(kāi)放。浪潮希望源1.0 能成為具有通用性和普惠性的“算法基礎設施”,從而賦能千行百業(yè),讓企業(yè)、科研機構或個(gè)人能真正使用這一模型。
“源1.0已經(jīng)做出來(lái)了,將來(lái)還會(huì )推出源2.0、3.0……”吳韶華說(shuō),“我們將其開(kāi)源,下一步我們會(huì )向多模態(tài)方向發(fā)展,進(jìn)一步優(yōu)化算法、提高算力、提升參數數量。希望源2.0將來(lái)是和合作伙伴一起推出的,這樣可以更貼近應用場(chǎng)景、更快速實(shí)現落地,同時(shí)兼顧對前沿技術(shù)的探索?!?/span>
目前,大模型落地仍有諸多困難。一方面要考慮技術(shù)如何走出實(shí)驗室,另一方面真正有數據、有需求的行業(yè)可能又不具備算力、數據的承載能力。此外,應用場(chǎng)景的能源、人才是否適配都是難題,需要從國家、產(chǎn)業(yè)、企業(yè)和科研機構多機構、多角度協(xié)同推進(jìn)。
去年12月,浪潮和國家信息中心聯(lián)合發(fā)布的《智能計算中心規劃建設指南》指出,要采用領(lǐng)先的人工智能計算架構和最新的人工智能的理論,實(shí)現智能計算中心這個(gè)平臺的算力的生產(chǎn)、聚合、調度和示范,從而推動(dòng)AI產(chǎn)業(yè)化、產(chǎn)業(yè)AI化和政府治理的智能化。
為更好服務(wù)新型基礎設施建設,提供智慧城市解決方案與產(chǎn)品服務(wù),浪潮首先提出自己的智能化,從智能工廠(chǎng)、智能客服體系來(lái)提升服務(wù)水平。
與此同時(shí),通過(guò)開(kāi)源開(kāi)放計劃,浪潮和合作伙伴一起研發(fā),碰撞出火花,把一項實(shí)驗室技術(shù)打造成能普惠產(chǎn)業(yè)的算法算力平臺,促進(jìn)人工智能生態(tài)化、產(chǎn)業(yè)化發(fā)展。
“就像你要在山頂建一座高塔,你不必從山腳爬到山頂,現在你已經(jīng)站在山頂了,只需要在山頂建塔即可?!眲④娬f(shuō),“這對整個(gè)產(chǎn)業(yè)的快速推進(jìn)非常有利。實(shí)際上,浪潮已經(jīng)開(kāi)發(fā)好平臺。一些非計算機類(lèi)院校畢業(yè)生,只要會(huì )用模型的API,能去生成新任務(wù)就可以了。這也緩解了人工智能產(chǎn)業(yè)發(fā)展的人才需求缺口。同時(shí),從用戶(hù)需求推動(dòng),也會(huì )促進(jìn)大模型的發(fā)展?!?/span>
奔涌“浪潮
新舊技術(shù)的更迭遠超人們的想像。IBM的締造者托馬斯?沃森曾說(shuō),“全世界只需要5臺電腦就足夠了”。微軟聯(lián)合創(chuàng )始人比爾?蓋茨在一次演講中宣稱(chēng),“個(gè)人計算機的內存640K足矣”。然而,現在一部手機的性能就能“秒殺”20年前最快的“超級計算機”。
“如果我們放寬視野,從更長(cháng)的時(shí)間維度看,現在的大模型也許10年后就不值一提了?!眲④娬f(shuō),“未來(lái)大模型的發(fā)展,要從應用場(chǎng)景和用戶(hù)需求出發(fā),進(jìn)一步優(yōu)化算法、提高算力、增加數據量?!?nbsp;
吳韶華同樣認為,任何一項技術(shù)的發(fā)展,都要經(jīng)歷從興起、成熟再到落地的過(guò)程?!皬陌l(fā)展規律來(lái)看,大模型現在剛剛興起,大家正在圍繞模型體量及模型體量帶來(lái)的推動(dòng)效應開(kāi)展探索。當大模型探索走向成熟之后,才會(huì )涉及應用的具體問(wèn)題,比如小型化運營(yíng)、高性能、可部署等方面”。
“貧窮限制了我們的想象力?!眲④婏L(fēng)趣地說(shuō),“以前我們沒(méi)有相應資源、也不具備相關(guān)技術(shù),不知道有更大的算力、更大的數據、更大的模型能干什么后能干什么。但今天我們有條件這么做,我認為這就是科技發(fā)展的趨勢,它能讓我們更快、更強?!?/span>
浪潮研發(fā)源1.0的初衷有兩個(gè):一是探索人工智能的前沿方向,推動(dòng)智能算法創(chuàng )新;二是建設算力基礎設施,并落地應用、推動(dòng)產(chǎn)業(yè)落地。由此可見(jiàn),這個(gè)開(kāi)放共享的“源”不僅是個(gè)大模型,也是創(chuàng )新之源、智慧之源。
“道旅遼遠,山川悠長(cháng)?!边@是源1.0在人工智能計算大會(huì )上創(chuàng )作的一句意境悠遠的詩(shī),似乎也在勉勵人們:從源出發(fā),不捐細流、不畏險阻,終會(huì )形成澎湃“浪潮”,席卷人工智能的海灘。
編輯 | 趙路
排版 | 郭剛
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。