<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 芯至科技尹文：拆解架構創(chuàng )新四大路徑，打造10倍性?xún)r(jià)比大模型推理芯片丨GACS 2023

芯至科技尹文：拆解架構創(chuàng )新四大路徑，打造10倍性?xún)r(jià)比大模型推理芯片丨GACS 2023

發(fā)布人：芯東西時(shí)間：2023-10-09 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

解讀AI大模型推理“芯”機會(huì )，RISC-V、一致性總線(xiàn)、WoW的架構創(chuàng )新大有可為。

作者 | GACS9月14日~15日，2023全球AI芯片峰會(huì )（GACS 2023）在深圳市南山區圓滿(mǎn)舉行。在9月14日AI芯片架構創(chuàng )新專(zhuān)場(chǎng)上，芯至科技聯(lián)合創(chuàng )始人、首席芯片架構師兼副總裁尹文分享了主題為《AI計算新時(shí)代催生芯片架構走向“算力統一場(chǎng)”》的主題演講。尹文認為，進(jìn)入AI新時(shí)代，算力創(chuàng )新不再僅僅是單個(gè)處理器微架構和芯片工藝的創(chuàng )新，而需要軟硬件全棧的系統架構全面創(chuàng )新，未來(lái)的創(chuàng )新機會(huì )來(lái)自以下方面：開(kāi)放的通用指令架構，高效的融合加速器，異構互聯(lián)總線(xiàn)和芯片工程，開(kāi)源算子庫、工具鏈和軟件。1、AI大模型落地到推理側的新機會(huì )與RISC-V架構創(chuàng )新不謀而合，RISC-V不僅可以做標量通用計算，也可以做線(xiàn)程級并行的AI計算。Scaler小標量+SIMT大算力的指令集/微架構融合將是未來(lái)RISC-V發(fā)力的重點(diǎn)，能以相對低的成本，為AI推理側應用提供高效支持。2、SoC芯片系統的有效算力依賴(lài)于計算核心或計算Die之間的高效互聯(lián)，通用算力和異構算力需要在整個(gè)系統的內存從邏輯上可以被統一為一個(gè)更大的具有一致性的空間。低時(shí)延大帶寬的一致性總線(xiàn)互聯(lián)可以讓異構計算芯片更好更緊密的協(xié)同，從而提高整個(gè)系統的性能和能效。3、WoW （Wafer on Wafer）混合鍵合在新型芯片工程技術(shù)領(lǐng)域有重大價(jià)值。在他看來(lái)，WoW可將AI Die和Memory Die垂直堆疊，以低于HBM一個(gè)量級的成本提供數倍于HBM的帶寬；對于大模型推理來(lái)說(shuō)，4~6GB的Memory Die完全滿(mǎn)足Transformer一層網(wǎng)絡(luò )權重的存儲和層內高帶寬需求。基于此，芯至科技圍繞RISC-V開(kāi)源指令架構、自研一致性總線(xiàn)、WoW 3DIC的架構創(chuàng )新，可以帶來(lái)10倍性?xún)r(jià)比的大模型AI推理芯片。展望更長(cháng)期的未來(lái)，尹文相信基于RISC-V開(kāi)源指令同構和微架構異構，開(kāi)源軟件工具鏈及自主一致性總線(xiàn)和芯片工程創(chuàng )新，未來(lái)有機會(huì )推進(jìn)到算力統一場(chǎng)。算力統一場(chǎng)將更利于形成更大的自主可控軟件新生態(tài)，并符合計算架構的原始特征，助力我國在計算體系方面換道超車(chē)。以下為尹文的演講實(shí)錄：首先謝謝主辦方的邀請，還有各位同行、各位嘉賓的參與。自從今年上半年大模型層出不窮，從芯片架構領(lǐng)域，各位同行都在一起討論，未來(lái)芯片在A(yíng)I領(lǐng)域的架構怎么做、未來(lái)新的機會(huì )在哪里。今天我給大家帶來(lái)的演講就是我們團隊在這一方面的思考。
01.AI新時(shí)代對算力發(fā)展提出新要求：軟硬件全棧的系統架構全面創(chuàng )新

進(jìn)入AI計算的新時(shí)代，怎么催生芯片架構不停地往前推？推向一個(gè)什么樣的地方？我們提出了一個(gè)“算力統一場(chǎng)”的概念。首先看芯片架構的創(chuàng )新，摩爾定律的一個(gè)根本特征就是單位性能的成本在線(xiàn)性下降，但最近幾年，單純憑工藝，到5nm、3nm之后，成本下降并不是線(xiàn)性的。我們怎么樣去延續這個(gè)線(xiàn)性的性?xún)r(jià)比的降低？更多地是要靠軟硬件重構。重構的一個(gè)頂層思想其實(shí)是來(lái)自第一性原理，要把原來(lái)的架構不停地分解，再不停地重構。

從芯片架構的角度來(lái)看，我們看到了幾個(gè)機會(huì )：第一個(gè)是開(kāi)放的通用指令架構，上個(gè)月（8月份）在北京的RISC-V峰會(huì )，各位同行有很多的討論，RISC-V就是開(kāi)源開(kāi)放架構的典型代表。第二個(gè)是怎樣做一個(gè)高效融合的加速器。大模型應用需要底層適應這些模型的算力架構，算力架構怎樣融合在通用指令架構上，這是我們所面臨的機會(huì )，也是一個(gè)技術(shù)難題。另外，現在處理器核越來(lái)越多，多Die互聯(lián)、異構互聯(lián)、存儲的連接越來(lái)越復雜，怎樣有一個(gè)異構互聯(lián)的高效總線(xiàn)，還有高效互聯(lián)的I/O設備的一個(gè)新架構，是未來(lái)AI芯片架構的一個(gè)新方向。最后，芯片的晶圓和Die越來(lái)越大，功耗越來(lái)越大，在提升它的性?xún)r(jià)比、能效上需要一個(gè)非常強大的、可演進(jìn)的一個(gè)芯片工程的支持，以及整個(gè)算子庫、工具鏈和軟件的發(fā)展。
02.AI大模型推理新機會(huì )，與RISC-V架構創(chuàng )新不謀而合

大模型和RISC-V在最近幾年有很好的結合，算法、算力、數據三架馬車(chē)要齊步往上推，我們看到，在微架構和模型方面是同步發(fā)展的。左邊的圖是大模型在快速發(fā)展，云端訓練的大模型有點(diǎn)類(lèi)似于一個(gè)人，首先從0到1，經(jīng)過(guò)九年義務(wù)教育，形成完整的世界觀(guān)。未來(lái)這些大模型要在各行各業(yè)去應用，就好比大家上了大學(xué)，選定一個(gè)專(zhuān)業(yè)，進(jìn)入到一個(gè)行業(yè)。有句話(huà)叫“學(xué)好數理化”，數理化就是基礎，未來(lái)模型要不停地增加行業(yè)知識，那是一個(gè)fine-tuning（微調）階段，意味著(zhù)更多的機會(huì )，大模型在各個(gè)行業(yè)能夠不停部署，產(chǎn)生真正的市場(chǎng)價(jià)值。

從右邊的圖可以看到，RISC-V的Scaler部分，有一個(gè)通用開(kāi)源的超標量架構，可以幫助我們打造在處理器主機端的軟硬件棧的基礎。另外基于RISC-V的BSD協(xié)議，它有非常廣闊的指令擴展空間。在上面綠色和紫色的部分，我們可以自定義Vector（向量）、Tensor Core（張量核）這些單元，這是RISC-V的指令框架所允許的。然后我們可以在這個(gè)擴展指令框架下，去實(shí)現各種各樣的微架構，微架構就是芯片架構所具體實(shí)現的電路，包括矩陣乘、卷積等電路。RISC-V所帶來(lái)的一個(gè)很大價(jià)值是上游性?xún)r(jià)比的急劇提升。舉個(gè)例子，大家可能不知道對OpenAI的Triton是否熟悉，現在有很多年輕的朋友正在利用Triton這個(gè)工具來(lái)做AI算子自動(dòng)化的開(kāi)發(fā)。Triton有全開(kāi)源的優(yōu)勢，另外它可以通過(guò)自動(dòng)化的生成工具，來(lái)生成特定的一些算子，比如說(shuō)浮點(diǎn)的卷積或者是矩陣乘?；旧纤男屎褪謱?xiě)的算子庫效率是相當的，比如說(shuō)一個(gè)FP16的矩陣乘，一個(gè)Python的代碼可能就20多行，大家可以在網(wǎng)上找到很多例子。它支持像Python這樣的高級語(yǔ)言，可以極大降低通過(guò)自定義指令學(xué)習類(lèi)似CUDA這樣編程框架的成本。按照現在Triton的發(fā)展，相比CUDA，它在自動(dòng)化算子生成、內存優(yōu)化、SM核心的scheduling等方面有很好的效果。

Triton目前是和整個(gè)RISC-V的生態(tài)圈、全球大的趨勢同步發(fā)展，發(fā)展速度非?？?。另外它也可以避免不兼容的指令，因為RISC-V整個(gè)行業(yè)在推進(jìn)，在生態(tài)建設上是齊頭并進(jìn)。我們基于傳統的GPGPU方案會(huì )有大量自定義的算子，并且要開(kāi)發(fā)自己的編譯器。作為一個(gè)芯片公司，其實(shí)我們在軟件的投入上反而會(huì )更大，包括在工具鏈、算子庫的開(kāi)發(fā)，很多軟件開(kāi)發(fā)團隊可能高達70%~80%的規模。如果采用開(kāi)源指令和開(kāi)源工具鏈這樣的技術(shù)路線(xiàn)，首先RISC-V可以復用整個(gè)編譯器的開(kāi)放成果，另外在客戶(hù)支持、算子開(kāi)發(fā)這方面，有類(lèi)似于像Triton，還有未來(lái)會(huì )發(fā)展更多的開(kāi)源工具，可以自動(dòng)化地生成第三方算子，極大降低軟件開(kāi)發(fā)的人力成本。
03.一致性總線(xiàn)使通用和異構算力緊密耦合，大幅提升有效算力

算力效率方面，我們提到了“有效算力”概念，跟芯片效率是非常相近的概念?，F在我們做芯片架構的時(shí)候，在關(guān)注單核的算力、主頻、流水線(xiàn)的能力。并且我們還要看在一張晶圓上可以做多少Chiplet的Die，Chiplet集成得越多，算力、核數也會(huì )越多越大。但大家可能忽略了一點(diǎn)，就是我們的SoC，把那么多核互聯(lián)起來(lái)，包括die-to-die的Chiplet互聯(lián)，還有CPU和GPU這樣類(lèi)似于NVLink、CXL這樣的異構互聯(lián)，它的效率問(wèn)題。我們要關(guān)注這么幾個(gè)指標，包括總線(xiàn)的時(shí)延、帶寬、一致性的能力?？赡艽蠹覍σ恢滦缘睦斫獠皇翘貏e多，它就好比部門(mén)越來(lái)越多，雖然團隊的實(shí)力和規模越來(lái)越大，但是并不代表這么多團隊產(chǎn)生的有效績(jì)效能夠越來(lái)越強，需要各部門(mén)的互聯(lián)互通、能夠目標一致。這個(gè)一致性也是一樣的，我們有那么多的CPU核、AI核，包括同構、異構的核，怎么保證處理任務(wù)的一致性。最后是功耗，它的能效也非常重要。

當前業(yè)界在總線(xiàn)方面的發(fā)展，包括Die內的Ring/Crossbar總線(xiàn)架構，還包括最近英偉達在Grace芯片里自研開(kāi)發(fā)的Scalable Coherency Fabric，都是在總線(xiàn)上面的一些技術(shù)探索。剛才很多同行也介紹了die-to-die（D2D）、Chiplet、并行、UCIe等各種D2D互聯(lián)總線(xiàn)，怎么樣提高它的效率，以及我們在一個(gè)大的集群里面怎么樣把異構的芯片通過(guò)Switch互聯(lián)起來(lái)，這更多是一個(gè)系統上的概念。一致性總線(xiàn)最終的目的是為了通用和異構，就是各種算力能夠有效互聯(lián)，來(lái)提高它的有效算力。
04.芯片工程新技術(shù)突破內存墻瓶頸，極大降低帶寬成本

說(shuō)完互聯(lián)墻，接下來(lái)就是大家談?wù)摫容^多的內存墻。在A(yíng)I芯片，我們當前的方案更加依賴(lài)于HBM這種大帶寬的內存。HBM跟CoWoS相結合，在擴展帶寬的時(shí)候，線(xiàn)性擴展帶來(lái)成本的極大增長(cháng)。怎么樣把AI的邏輯Die跟內存Die有更緊密的連接，把帶寬成本降下來(lái)？現在我們可以看到，Hybrid Bonding異構鍵合技術(shù)在快速發(fā)展?；贖ybrid Bonding技術(shù)，我們可以實(shí)現Wafer-on-Wafer（WoW）的垂直互聯(lián)，就像從三樓到四樓可以有上萬(wàn)部電梯，這樣我們會(huì )場(chǎng)這么多人，吞吐率就會(huì )非常大。我們芯至科技和合作伙伴一起，現在已經(jīng)可以做到在兩個(gè)Die有70000多個(gè)pins互聯(lián)，相當于有這么多部電梯互聯(lián)互通，容量可以做到6GB，相當于我的AI邏輯Die和內存Die可以實(shí)現非常短距的、大帶寬的互聯(lián)互通。

由于我們可以不用那么大的die，我們可以極大降低WoW這樣一個(gè)內存架構的成本，從計算效率來(lái)看，雖然HBM的容量比較大，但實(shí)際上在大模型Transformer方面，網(wǎng)絡(luò )是分層的。可以看右邊的表格，剛才提到大模型未來(lái)進(jìn)入行業(yè)部署更多是微調，它的模型參數并沒(méi)有像ChatGPT或者GPT-4、5未來(lái)指數級的增長(cháng)，單層參數量可以放在WoW這樣一個(gè)DRAM存儲空間上。在容量夠的情況下，實(shí)際上就可以體現WoW這樣一個(gè)大帶寬的巨大優(yōu)勢。
05.圍繞三大方向構建創(chuàng )新架構，打造約10倍性?xún)r(jià)比優(yōu)勢的大模型推理芯片

小結一下，在A(yíng)I架構創(chuàng )新方面，作為芯片架構師，我們還有很多事情可以做：一方面，開(kāi)放的指令架構。我們可以重新來(lái)認識一下RISC-V，它可以做CPU，大家可能熟知的是x86指令、Arm指令，RISC-V就是下一代新生的CPU指令架構。但我們基于RISC-V也可以做SIMT的架構，實(shí)現GPGPU的功能。在通過(guò)RISC-V做GPGPU的過(guò)程中，我們可以最大地復用RISC-V這個(gè)開(kāi)源指令，包括它的開(kāi)源工具、整個(gè)軟件復用度，就可以極大降低在做自定義芯片的情況下，我們要有大量的人力成本。第二，高效的異構互聯(lián)，在自研一致性總線(xiàn)方面，我們更多要有一個(gè)系統框架，怎么樣把Die內的互聯(lián)、D2D Fabric、整個(gè)Chip-to-Chip的互聯(lián)納入到一個(gè)完整的一致性框架下，并且在物理上、在芯片工程上降低時(shí)延，提升帶寬，這是我們要發(fā)力的重點(diǎn)。第三，新型的芯片工程，在內存墻方面，我們怎么樣把AI Die通過(guò)WoW、Hybrid Bonding這樣的技術(shù)，把帶寬做上去，未來(lái)是能夠替代HBM、CoWoS封裝等高成本方式的最佳途徑。所以我們團隊現在在考慮，在當前的大模型推理芯片架構上，在軟硬件結合還有芯片工程上的創(chuàng )新，來(lái)打造具有10倍性?xún)r(jià)比以上的創(chuàng )新芯片。
06.結語(yǔ)：重構計算體系結構，打造算力統一場(chǎng)，發(fā)展軟件大生態(tài)

中長(cháng)期愿景，算力統一場(chǎng)。首先可以看到中間這個(gè)圖，在整個(gè)RISC-V指令規劃基礎下，我們在這個(gè)圓圈的內部可以做很多事情。

我們的DSA和通用架構，實(shí)際上是一個(gè)循環(huán)，在80年代的時(shí)候，當時(shí)一個(gè)叫牧村的日本人提出的“牧村定律”，就是從專(zhuān)用到通用這個(gè)循環(huán)的規律。RISC-V的整體指令架構是統一或同構的，但我們可以在微架構做很多事情，包括SIMT、DSP、DSA的核心等，來(lái)發(fā)揮RISC-V在整個(gè)開(kāi)放指令上的優(yōu)勢。另外一點(diǎn)，開(kāi)源工具鏈，就像我剛才給大家介紹的OpenAI所做的Triton的例子，大家可以多去看看，Triton在整個(gè)社區非?；钴S。未來(lái)會(huì )有更多像Triton這樣的開(kāi)源工具發(fā)展，結合RISC-V微觀(guān)指令的發(fā)展，在整個(gè)指令、自定義算子、編譯器方面，有很大的性?xún)r(jià)比提升。從微架構異構和指令集同構、開(kāi)源工具鏈、在SoC層面的一致性總線(xiàn)還有芯片工程方面，我們有機會(huì )在未來(lái)打造一個(gè)軟硬件同構的新生態(tài)。這個(gè)新生態(tài)更加有利于在國內形成一個(gè)更大的、自主可控的軟件生態(tài)，并且在芯片架構領(lǐng)域更加符合計算架構本身原生態(tài)的架構，有助于在計算領(lǐng)域幫助我國在計算體系方面做到換道超車(chē)。大家知道當前的CPU、GPU的計算架構和生態(tài)是建立和發(fā)展主要在國外，國外特別是硅谷有很多行業(yè)前輩奠定了在傳統計算架構上面的基礎。在未來(lái)算力統一場(chǎng)的新方向，我們可以做很多自主可控的架構創(chuàng )新。在A(yíng)I新時(shí)代新機遇的引領(lǐng)下，希望我們團隊和整個(gè)芯片行業(yè)同仁一起，能夠把算力同一場(chǎng)的愿景不斷地做好、做遠，共同實(shí)現計算新生態(tài)。謝謝大家！以上是尹文演講內容的完整整理。

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 芯至科技

相關(guān)推薦

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>