<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 億鑄科技熊大鵬:大模型時(shí)代,AI大算力芯片急需破除“存儲墻”丨GACS 2023

億鑄科技熊大鵬:大模型時(shí)代,AI大算力芯片急需破除“存儲墻”丨GACS 2023

發(fā)布人:芯東西 時(shí)間:2023-10-25 來(lái)源:工程師 發(fā)布文章

存算一體超異構,實(shí)現更大的AI算力和更高的能效比。編輯 |  GACS
9月14日~15日,2023全球AI芯片峰會(huì )(GACS 2023)在深圳南山圓滿(mǎn)舉行。在首日開(kāi)幕式上,億鑄科技創(chuàng )始人、董事長(cháng)兼CEO熊大鵬分享了題為《存算一體超異構AI大算力芯片破局大模型時(shí)代“芯”挑戰》的主題演講。熊大鵬提出,大模型時(shí)代下的“芯”挑戰,比起算力如何增長(cháng),更大的問(wèn)題在于數據搬運能力的剪刀差越來(lái)越大。數據顯示,計算能力與數據搬運之間的鴻溝,大概以每年50%的速率擴大。大模型出現后,數據訪(fǎng)存在整個(gè)計算周期里的占比,達到了95%以上甚至更高。億鑄科技認為,隨著(zhù)AI應用進(jìn)入到2.0時(shí)代,要解決AI計算芯片面臨的諸多挑戰,關(guān)鍵在于回歸阿姆達爾定律并成功破除“存儲墻”。據悉,億鑄科技原型技術(shù)驗證(POC)芯片已回片,并成功點(diǎn)亮。該POC是首顆基于ReRAM的面向數據中心、云計算、自動(dòng)駕駛等場(chǎng)景的存算一體矩陣POC,能效比超過(guò)預期表現,進(jìn)一步驗證了公司的技術(shù)實(shí)力和市場(chǎng)潛力。以下為熊大鵬的演講實(shí)錄:大家好!我去年也參加了AI芯片峰會(huì ),但今年情況不一樣,因為今年大模型的火爆給人工智能芯片等各方面都帶來(lái)了巨大的變化。下面我將介紹億鑄科技存算一體超異構AI大算力芯片怎么去應對大模型時(shí)代的“芯”挑戰。
01.數據搬運,大模型時(shí)代的“芯”挑戰


大模型的參數規模,像GPT-3目前是1750億,未來(lái)可能將會(huì )迎來(lái)幾倍、幾十倍、上百倍的增長(cháng)。這樣的增長(cháng)帶來(lái)的好處是,大模型的容量、智能等各方面將會(huì )超過(guò)人的大腦。但與此同時(shí),大模型時(shí)代也對我們提出了很多挑戰跟需求。第一,算力如何提升。目前來(lái)說(shuō),人們針對大模型的芯片制造工藝或是其他各方面投入基本都已經(jīng)到了極限。第二,大模型對計算能耗的需求非常大。AMD CEO蘇姿豐說(shuō)過(guò),如果沒(méi)有新的技術(shù)出現,按照目前的計算效率,12年以后,也就是2035年,每一臺Zetta級別的超級計算機所需要的能耗將會(huì )相當于半個(gè)核電站。從算力的角度來(lái)說(shuō),支撐底層算力的摩爾定律現在幾近終結。但是我們的模型越來(lái)越大,算法越來(lái)越復雜,對算力的要求也越來(lái)越高,這將是一個(gè)很大的挑戰。AI芯片,或者說(shuō)大算力AI芯片,將來(lái)的路該怎么走?除了算力以外還有一個(gè)更大的問(wèn)題——數據搬運能力的剪刀差越來(lái)越大。

基于摩爾定律,算力每年大概以60%-70%的速率提升。但是對于數據搬運,無(wú)論是從外部的存儲器搬運到芯片內部,還是芯片內部的數據總線(xiàn),其物理線(xiàn)速度的提升基本是每年10%以?xún)?。這就導致計算能力與數據搬運之間的鴻溝,大概以每年50%的速率擴大。在過(guò)去十年,單位計算力所需要和所能獲取的數據搬運帶寬,差距擴大了3倍。對大模型來(lái)說(shuō),其實(shí)問(wèn)題的根源就在于,怎么把數據不被堵塞地從外部搬到內部。下圖這個(gè)模型,我已經(jīng)在很多地方講過(guò)。這里的F值,指的是數據訪(fǎng)存在整個(gè)計算周期里的占比。

在過(guò)去存算分離的馮·諾伊曼架構下,做AI芯片或是跟AI芯片相關(guān)的應用時(shí),F值就已經(jīng)達到80%-90%。這意味著(zhù)大量的能耗是卡在數據搬運訪(fǎng)存上的,造成了性能瓶頸。在大模型的時(shí)代背景下,F值更是能達到95%。這意味著(zhù)如果數據搬運的速度不提升,即使我們將來(lái)用更好的工藝去獲取更高的算力,對實(shí)際性能提升的百分比其實(shí)非常有限,可能只有10%-20%。這也是為什么到今天,更多的公司開(kāi)始把注意力集中在解決數據搬運的問(wèn)題上,比方說(shuō)大量地采用HBM、 3D RAM封裝技術(shù)等等。這些解決方案會(huì )帶來(lái)更好的片間互連、板間互連,能夠比較有效地去解決數據搬運問(wèn)題,從而非常有效地提升實(shí)際性能。
02.數據搬運的根本解決方案在于存算一體


這些傳統的解決方案的確有效。我們看F值就知道,如果把數據搬運效率提升1倍,不需要用5納米、3納米、1納米工藝,實(shí)際計算性能也能提升1倍。但是要真正解決這個(gè)問(wèn)題,我們認為根本的解決方案是存算一體。存算一體相當于在存儲單元的基礎上,把計算的部分加上去,模型的參數搬運環(huán)節基本上就免掉了。比方說(shuō)1750億參數的GPT-3模型,每一次推理計算的時(shí)候都要把350Gbyte的數據搬到芯片上,才能做一次推理、算一次Token。如果是訓練,這個(gè)數據量會(huì )更大。但如果這個(gè)數據不需要搬運,就意味著(zhù)數據搬運的瓶頸根本不存在,計算的效率會(huì )高很多。存算一體的技術(shù)現在也慢慢被大廠(chǎng)所接受,比如AMD已經(jīng)宣布他們將會(huì )以存算一體作為核心,結合異構的方式,實(shí)現既兼顧通用性,又能夠有非常強的計算能力的芯片。還例如特斯拉,最近宣布其基于近存儲計算的超級計算機Dojo1已經(jīng)準備好了,業(yè)界對此評價(jià)非常高。摩根士丹利說(shuō),光是芯片就有可能給特斯拉帶來(lái)5000億美元市值的增量。三星也宣布將基于DRAM做存算一體,他們認為在不久的將來(lái),存儲器在A(yíng)I服務(wù)器中的重要性將超過(guò)英偉達GPU的重要性。三星預計到2028年發(fā)布以存儲器為中心的超級計算機。言下之意就是要做基于存算一體的超級計算機。億鑄科技近期成功點(diǎn)亮大模型時(shí)代存算一體AI大算力原型技術(shù)驗證芯片(POC)。該POC芯片基于成熟工藝制程,在100W以?xún)龋?/strong>單卡算力可以突破P級,也就是1000T。另外,該POC芯片的能效比已經(jīng)遠超英偉達5納米工藝制程的H100系列4T/W左右的能效比。面對ChatGPT等大模型帶來(lái)的AI算力挑戰,億鑄科技在年初提出“存算一體超異構”,以存算一體(CIM)AI加速計算單元為核心,以統一ISA指令集和架構將不同的計算單元進(jìn)行異構集成和系統優(yōu)化,既能實(shí)現更大的AI算力以及更高的能效比,還可以提供更好的可編程性和更為通用的應用生態(tài)。

通過(guò)前面講到的CMOS工藝、新型存儲器、存算一體的架構、Chiplet、先進(jìn)封裝,我們能夠將芯片有效算力做到更大,參數能放置更多,支持更大規模的模型,能效比更高,軟件的兼容性和可編程性更好。另外很關(guān)鍵的一點(diǎn),就是芯片的發(fā)展空間非常大。目前該POC芯片采用了傳統工藝制程,未來(lái),不管是容量還是性能,比較保守地說(shuō),至少擁有幾倍或者十倍以上的成長(cháng)空間,這是可以預期的。


03.AI應用進(jìn)入2.0時(shí)代,存算一體成為AI大模型算力發(fā)展“靈丹妙藥”


在強AI的大模型時(shí)代,一定范圍內,大模型會(huì )替代傳統的小模型。由于大模型突出的泛化性,將會(huì )低成本地催生新的AI應用場(chǎng)景,并且在各個(gè)垂直領(lǐng)域能夠快速地落地和推廣。另外,我們認為大模型將來(lái)有可能會(huì )以IAAS(Intelligence As A Service,智能即服務(wù))的產(chǎn)品形式賦能各個(gè)行業(yè)。此外,極高的AI研發(fā)投入帶來(lái)的副作用,是“通用智能寡頭”的格局。但出于大模型的泛化性,在具體的垂直行業(yè)、垂直領(lǐng)域反而有利于通用人工智能落地。將來(lái)在各個(gè)領(lǐng)域,我們認為會(huì )出現“百花齊放”的格局。總的來(lái)說(shuō),AI應用已經(jīng)進(jìn)入到了新的2.0時(shí)代。目前最突出的問(wèn)題,就是大模型導致的巨量數據搬運問(wèn)題,這個(gè)問(wèn)題的根源來(lái)自于存儲墻。現在性能最好的H100芯片,如果用在參數總量為350Gbyte的GPT-3模型上做推理計算,數據搬運每秒只能搬6次左右。這就意味著(zhù)用H100,1秒大概只能算6個(gè)或10個(gè)Token。但從計算能力上來(lái)說(shuō),這樣的數據搬運其實(shí)只占用H100計算能力中很少的百分比,大部分算力是空余的。如果把這個(gè)存儲墻問(wèn)題解決,H100的實(shí)際效能可能至少提升10倍以上。我們認為在大模型時(shí)代,AI大算力芯片的競爭核心會(huì )逐步轉向破除“存儲墻”。這部分誰(shuí)解決得好,誰(shuí)就會(huì )在未來(lái)AI芯片競爭格局里占優(yōu)勢,Amdahl Law阿姆達爾定律早已揭示了這點(diǎn)。在大模型時(shí)代,數據搬運已經(jīng)占據整個(gè)計算周期90%以上。這意味著(zhù)算力本身對于實(shí)際算力來(lái)說(shuō),重要性反而不是那么高,更重要的是解決數據的搬運。由此出發(fā),我們認為存算一體超異構的AI芯片架構,天然地適合AI的并行計算。換句話(huà)說(shuō),存算一體是為AI大模型而生的計算架構,它的核心就是解決存儲墻,從而解決能耗跟實(shí)際算力瓶頸的問(wèn)題。今天就介紹這些,謝謝大家!以上是熊大鵬演講內容的完整整理。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 大模型

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>