<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > FuriosaAI推出高能效AI芯片:性能與英偉達L40S接近,功耗低40%!

FuriosaAI推出高能效AI芯片:性能與英偉達L40S接近,功耗低40%!

發(fā)布人:芯智訊 時(shí)間:2024-10-18 來(lái)源:工程師 發(fā)布文章

8月27日消息,在近日召開(kāi)的Hot Chips 2024大會(huì )上,韓國AI芯片初創(chuàng )公司FuriosaAI 推出了一款面向高性能大型語(yǔ)言模型和多模態(tài)模型推理的高能效數據中心AI加速器 RNGD。

需要指出的是,這款芯片并不追求最高的AI性能,對標的也不是英偉達的H100之類(lèi)的高性能AI芯片,而是一款追求高能效、低功耗AI數據中心解決方案,性能與英偉達L40S接近,功耗還降低了40%。

image.png

具體來(lái)說(shuō),FuriosaAI RNGD基于臺積電5nm工藝制造,其核心的面積為653mm2,晶體管數量為400億顆,AI計算核心的頻率為1.0GHz,擁有256MB的片上SRAM,外圍還通過(guò)CoWoS-S封裝集成了48GB HBM3(2顆12層堆棧的24GB HBM),內存帶寬為1.5TB/s。

image.png

在性能方面,基于 RNGD芯片的單張卡算力為64TFLOPS(FP8),可以運行Llama 3.1 8B等大語(yǔ)言模型,TDP功耗僅150W,相比之下英偉達H100 TDP則高達400W。而基于8張RNGD加速卡的系統,則可提供最高512TFLOPS(FP8)和1024TOPS(INT4)的計算能力。

image.png

根據FuriosaAI介紹,RNGD在運行擁有約100億個(gè)參數的模型時(shí),能夠達到每秒處理多達3000個(gè)Token的吞吐量。在復雜的AI算法處理場(chǎng)景中,其能夠有效降低電費和冷卻成本,為數據中心提供了一種可持續的發(fā)展解決方案。與當前市場(chǎng)上的主流GPU相比,RNGD芯片能耗大幅降低的同時(shí),計算性能卻未受影響,提升了整體的經(jīng)濟效益。

正如前面所提及的,FuriosaAI并沒(méi)有將RNGD的目標對準高性能的英偉達H100之類(lèi)的產(chǎn)品,而是瞄準了英偉達L40S,目標不僅是提供相似的性能,而且是以更低的功耗提供該性能。根據FuriosaAI提供的數據顯示,RNGD在擁有與英偉達L40S相近的AI性能的情況下,其能耗大約只有L40S的60%(即相當于功耗降低了40%),這也反應了其出色的能效表現。

image.png

FuriosaAI RNGD的高能效主要得益于其獨特的TCP架構。FuriosaAI表示,該架構在能效、性能和可編程性之間達成了良好的平衡,能夠高效管理數據和內存。這使得RNGD在處理例如Llama3這樣的龐大模型時(shí),比傳統GPU方案具備明顯的優(yōu)勢,尤其是在能效比方面。

當然,這也得益于FuriosaAI RNGD來(lái)自于硬件、軟件和算法方面的聯(lián)合優(yōu)化。

比如,FuriosaAI一直試圖解決在硬件和軟件之間的抽象層上工作的挑戰。

張量收縮是FuriosaAI的主要操作之一。在BERT方面,占據了FLOPS算力的99%。

image.png

通常,我們把矩陣乘法作為基元,而不是張量收縮。

image.png

相反,抽象是在張量收縮級別。

image.png

FuriosaAI為其原語(yǔ)添加了一個(gè)低級einsum。

image.png

這里,矩陣A和B相乘產(chǎn)生C。

image.png

然后,FuriosaAI利用這一點(diǎn),在具有內存和計算單元的實(shí)際架構上對其進(jìn)行調度。

image.png

從這里開(kāi)始,一個(gè)完整的張量收縮可以是一個(gè)本原。

image.png

通過(guò)考慮空間和時(shí)間編排,他們可以提高效率和利用率。

image.png

Furiosa表示,它具有靈活的可重新配置性,這對于在批量變化時(shí)保持高性能非常重要。

image.png

下面是RNGD實(shí)現的情況:

image.png

以下是互連網(wǎng)絡(luò ),包括訪(fǎng)問(wèn)暫存存儲器。

image.png

FuriosaAI正在使用PCIe Gen5 xq6進(jìn)行芯片到芯片的通信。它還通過(guò)PCIe交換機使用P2P進(jìn)行GPU之間的直接通信。

image.png

FuriosaAI支持SR-IOV進(jìn)行虛擬化。

image.png

FuriosaAI已經(jīng)為可靠性做了信號和電源完整性方面的工作。

image.png

下面是Furiosa LLM如何以流程圖的形式工作:

image.png

編譯器編譯映射到多個(gè)設備的每個(gè)分區。

image.png

編譯器優(yōu)化了模型的性能增益和能效。

image.png

服務(wù)框架做類(lèi)似連續批處理的事情來(lái)獲得更多的利用率。

image.png

FuriosaAI公司有一個(gè)基于圖表的自動(dòng)化工具來(lái)幫助量化。Furiosa可以支持許多不同的格式,包括FP8和INT4。

image.png

編輯:芯智訊-浪客劍 編譯自:servethehome



*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 芯片

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>