<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 晶圓級AI芯片WSE-3性能公布:80億參數模型上每秒生成1800個(gè)Token

晶圓級AI芯片WSE-3性能公布:80億參數模型上每秒生成1800個(gè)Token

發(fā)布人:芯智訊 時(shí)間:2024-10-24 來(lái)源:工程師 發(fā)布文章

今年3月,新創(chuàng )AI芯片公司Cerebras Systems推出了其第三代的晶圓級AI芯片WSE-3,性能達到了上一代WSE-2的兩倍,可用于訓練業(yè)內一些最大的人工智能模型。在近日的Hot Chips 2024大會(huì )上,Cerebras Systems詳細介紹了這款芯片在A(yíng)I推理方面的性能。

根據官方資料顯示,WSE-3依然是采用了一整張12英寸晶圓來(lái)制作,基于臺積電5nm制程,芯片面積為46225平方毫米,擁有的晶體管數量達到了4萬(wàn)億個(gè),擁有90萬(wàn)個(gè)AI核心,44GB片上SRAM,整體的內存帶寬為21PB/s,結構帶寬高達214PB/s。使得WSE-3具有125 FP16 PetaFLOPS的峰值性能,相比上一代的WSE-2提升了1倍。

image.png

作為對比,WSE-2芯片面積同樣是46225平方毫米,基于臺積電7nm制程,晶體管數量為2.6萬(wàn)億個(gè),AI內核數量為85萬(wàn)個(gè),片上內存SRAM為40GB,內存帶寬為20PB/s,結構帶寬高達220PB/s。

如果將其與英偉達的H100相比,WSE-3面積將是H100的57倍,內核數量是H100的52倍,片上內存是H100的880倍,內存帶寬是H100的7000倍,結構帶寬是H100的3715倍。( H200 的 HBM3e 僅擁有 4.8TBps 的帶寬。

image.png

在此次的Hot Chips 2024大會(huì )上,Cerebras公布了更多關(guān)于WSE-3在運行AI大模型上的性能表現。

Cerebras表示,它在Llama3.1-8B上的推理速度比微軟Azure等公司使用NVIDIA H100快了20倍。需要指出的是,在許多現代生成式 AI 工作負載中,推理性能通常更得益于內存帶寬的大小,而不單單是計算能力。也就是說(shuō),擁有更大的內存帶寬,模型的推理速度就越快。

image.png

Cerebra Systems首席執行官 Andrew Feldman 稱(chēng),WSE-3通過(guò)使用 44GB片上SRAM,使得其能夠以 16 位精度運行 Llama 3.1 8B 時(shí),每秒能夠生成超過(guò) 1,800 個(gè)Token,而性能最好的基于英偉達H100的實(shí)例每秒只能生成超過(guò) 242 個(gè)Token。

與此同時(shí),Cerebras還推出了基于WSE-3的CS-3超級計算機,可用于訓練參數高達24萬(wàn)億的人工智能模型,這比相比基于WSE-2和其他現代人工智能處理器的超級計算機有了重大飛躍。該超級計算機可以支持1.5TB、12TB或1.2PB的外部?jì)却?,這使它能夠在單個(gè)邏輯空間中存儲大量模型,而無(wú)需分區或重構,從而簡(jiǎn)化了訓練過(guò)程,提高了開(kāi)發(fā)人員的效率。

image.png

最新的 Cerebras 軟件框架可以為PyTorch 2.0 和最新的 AI 模型和技術(shù)(如多模態(tài)模型、視覺(jué)轉換器、專(zhuān)家混合和擴散)提供原生支持。Cerebras 仍然是唯一為動(dòng)態(tài)和非結構化稀疏性提供本機硬件加速的平臺,相比英偉達的DGX-100計算機系統,將訓練速度提高了8 倍。

在運行分布在四個(gè)CS-3加速器上的 700 億參數版本的 Llama 3.1 大模型時(shí),也能夠實(shí)現每秒 450 個(gè)Token。相比之下,H100 可以管理的最佳狀態(tài)是每秒 128 個(gè)Token。

image.png

Feldman 認為,這種性能水平,就像寬帶的興起一樣,將為 AI 的采用開(kāi)辟新的機會(huì )?!敖裉?,我認為我們正處于 Gen AI 的撥號時(shí)代,”他說(shuō),并指出了生成式 AI 的早期應用,其中提示的響應會(huì )有明顯的延遲。

他認為,如果能夠足夠快地處理請求,就可以基于多個(gè)模型構建代理應用程序,而不會(huì )因為延遲變得難以為繼。Feldman 認為這種性能有益的另一個(gè)應用是允許 LLM 在多個(gè)步驟中迭代他們的答案,而不僅僅是吐出他們的第一個(gè)響應。如果您可以足夠快地處理Token,則可以在幕后做更多的處理。

雖然WSE-3能夠以 16 位精度運行 Llama 3.1 8B 時(shí),每秒能夠生成超過(guò) 1,800 個(gè)Token,但是如果不是因為系統受計算限制,WSE-3的速度應該能夠更快。

該產(chǎn)品代表了 Cerebras 的一些轉變,因為此前,Cerebras 主要專(zhuān)注于 AI 訓練。雖然現在也開(kāi)始應用于A(yíng)I推理,但是硬件本身實(shí)際上并沒(méi)有改變。Feldman表示,他們正在使用相同的 WSE-3 芯片和 CS-3 系統進(jìn)行推理和訓練。

“我們所做的是擴展了編譯器的功能,可以同時(shí)在芯片上放置多個(gè)層,”Feldman解釋說(shuō)。

SRAM 速度很快,但使 HBM 容量更大

雖然 SRAM 在性能方面比 HBM 具有明顯的優(yōu)勢,但它的不足之處在于容量。對于大型語(yǔ)言模型 (LLM)來(lái)說(shuō),44GB的容量并不多,因為必須考慮到鍵值緩存在WSE-3所針對的高批處理大小下占用了相當多的空間。

Meta 的 Llama 3 8B 模型是 WSE-3 的理想化場(chǎng)景,因為大小為 16GB(FP16),整個(gè)模型可以安裝在芯片的 SRAM 中,為鍵值緩存留下大約 28GB 的空間。

Feldman 聲稱(chēng),除了極高的吞吐量外,WSE-3 還可以擴展到更高的批量大小。盡管它究竟可以擴展到多大程度并保持每個(gè)用戶(hù)Token的生成率,這家初創(chuàng )公司不愿透露。“我們目前的批次大小經(jīng)常變化。我們預計第四季度的批量規模將達到兩位數,“Cerebras說(shuō)道。

當被追問(wèn)更多細節時(shí),Feldman補充說(shuō):“我們目前的批量大小還不成熟,因此我們寧愿不提供它。系統架構旨在以高批量運行,我們預計在未來(lái)幾周內實(shí)現這一目標?!?/p>

與現代 GPU 非常相似,Cerebras 通過(guò)跨多個(gè) CS-3 系統并行化模型來(lái)應對這一挑戰。具體來(lái)說(shuō),Cerebras 正在使用管道并行性將模型的層分布到多個(gè)系統。

對于需要 140GB 內存的 Llama 3 70B,該模型的 80 層分布在四個(gè)通過(guò)以太網(wǎng)互連的 CS-3 系統中。這確實(shí)會(huì )帶來(lái)性能損失,因為數據必須通過(guò)這些鏈接。

image.png

△由于單個(gè)WSE-3只有 44GB SRAM,因此需要將多個(gè)加速器連接在一起以支持更大的模型

然而,根據 Feldman 的說(shuō)法,節點(diǎn)到節點(diǎn)的延遲并不像您想象的那么大?!斑@里的延遲是真實(shí)的,但很小,并且它與通過(guò)芯片上所有其他層的Token分攤,”他解釋說(shuō)?!白詈?,Token上的晶圓到晶圓延遲約占總數的 5%?!?/p>

對于更大的模型,例如最近宣布的 4050 億參數變體的 Llama 3,Cerebras 估計它將能夠使用 12 個(gè) CS-3 系統實(shí)現每秒約 350 個(gè)Token。

利用更高速的片上SRAM來(lái)替代HBM并不是一個(gè)新鮮事,Cerebra的競爭對手 Groq也是這么做的。

Groq 的語(yǔ)言處理單元 (LPU) 實(shí)際上使用了片上SRAM。不同之處在于,由于單個(gè) Groq LPU SRAM 容量較低,因此需要通過(guò)光纖連接更多的加速器來(lái)支持更大的模型。

Cerebras 需要四個(gè) CS-3 系統才能以每秒 450 個(gè)令牌的速度運行 Llama 3 70B,Groq 此前曾表示,它需要 576 個(gè) LPU 才能實(shí)現每秒300個(gè)Token。而Cerebras 引用的人工智能分析 Groq 基準測試略低,為每秒 250 個(gè)Token。

Feldman 還指出,Cerebras 能夠在不求助于量化的情況下做到這一點(diǎn)。認為Groq 正在使用 8bit量化來(lái)達到他們的性能目標,這減少了模型大小、計算開(kāi)銷(xiāo)和內存壓力,但代價(jià)是準確性有所損失。

不過(guò),僅比較性能,而忽略整體的成本是不公平的對比。畢竟單個(gè)晶圓級的WSE-3芯片的成本也遠遠高于Groq LPU的成本。

編輯:芯智訊-浪客劍


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 芯片

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>