<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > AI 推理競賽白熱化

AI 推理競賽白熱化

—— Nvidia Blackwell、AMD、Google、Untether AI 的首個(gè) MLPerf 基準測試
作者:Dina Genkina 時(shí)間:2024-09-06 來(lái)源: 收藏

雖然 Nvidia GPU 在 AI 訓練中的主導地位仍然是無(wú)可爭議的,但我們可能會(huì )看到早期跡象,表明在 AI 推理方面,這家科技巨頭的競爭正在加劇,尤其是在能效方面。然而,Nvidia 新 Blackwell 芯片的純粹性能可能很難被擊敗。

本文引用地址:http://dyxdggzs.com/article/202409/462746.htm

今天早上,ML Commons 發(fā)布了其最新的 AI 推理競賽 ML Perf Inference v4.1 的結果。本輪融資包括使用  Instinct 加速器、最新  Trillium 加速器、多倫多初創(chuàng )公司 UntetherAI 的芯片以及 Nvidia 新 Blackwell 芯片的首次試用團隊的首次提交。另外兩家公司 Cerebras 和 FuriosaAI 宣布推出新的推理芯片,但沒(méi)有提交給 。

就像奧林匹克運動(dòng)一樣, 有許多類(lèi)別和子類(lèi)別。提交數量最多的是 “datacenter-closed” 類(lèi)別。封閉類(lèi)別(而不是開(kāi)放類(lèi)別)要求提交者按原樣對給定模型運行推理,而無(wú)需對軟件進(jìn)行重大修改。數據中心類(lèi)別測試提交者對查詢(xún)的批量處理,而邊緣類(lèi)別則側重于最大限度地減少延遲。

 

 1725604982964.png

在每個(gè)類(lèi)別中,有 9 個(gè)不同的,適用于不同類(lèi)型的 AI 任務(wù)。其中包括圖像生成(想想 Midjourney)和 LLM 問(wèn)答(想想 ChatGPT)等流行的用例,以及同樣重要但不太引人注目的任務(wù),例如圖像分類(lèi)、對象檢測和推薦引擎。

本輪比賽包括一個(gè)名為 Mix of Expert 的新基準。這是 LLM 部署的一個(gè)增長(cháng)趨勢,其中語(yǔ)言模型被分解為幾個(gè)較小的獨立語(yǔ)言模型,每個(gè)模型都針對特定任務(wù)進(jìn)行了微調,例如定期對話(huà)、解決數學(xué)問(wèn)題和協(xié)助編碼。該模型可以將每個(gè)查詢(xún)定向到較小模型的適當子集,即“專(zhuān)家”。 推理工作組主席兼  高級技術(shù)人員 Miroslav Hodak 說(shuō),這種方法可以減少每個(gè)查詢(xún)的資源使用,從而降低成本并提高吞吐量。

在流行的數據中心封閉中,每個(gè)的獲勝者仍然是基于 Nvidia 的 H200 GPU 和 GH200 超級芯片的提交,它們將 GPU 和 CPU 組合在同一個(gè)封裝中。然而,仔細觀(guān)察性能結果會(huì )描繪出更復雜的畫(huà)面。一些提交者使用了許多加速器芯片,而另一些則只使用了一種。如果我們根據使用的加速器數量對每個(gè)提交者每秒能夠處理的查詢(xún)數量進(jìn)行標準化,并僅保留每種加速器類(lèi)型的性能最佳的提交,就會(huì )出現一些有趣的細節。(請務(wù)必注意,此方法忽略了 CPU 和互連的作用。

在每個(gè)加速器的基礎上,Nvidia 的 Blackwell 在 LLM Q&A 任務(wù)上的表現比之前的所有芯片迭代高出 2.5 倍,這是它提交的唯一基準測試。 的 speedAI240 Preview 芯片在其唯一的提交任務(wù)(圖像識別)中的性能幾乎與 H200 相當。 的 Trillium 在圖像生成方面的表現略高于 H100 和 H200 的一半, 的 Instinct 在 LLM 問(wèn)答任務(wù)中的表現與 H100 差不多。

 1725605005259.png

 

Blackwell 的力量

Nvidia Blackwell 成功的原因之一是它能夠使用 4 位浮點(diǎn)精度運行 LLM。Nvidia 及其競爭對手一直在降低 ChatGPT 等 transformer 模型部分用于表示數據的位數,以加快計算速度。Nvidia 在 H100 中引入了 8 位數學(xué),此次提交標志著(zhù) MLPerf 基準測試中首次演示 4 位數學(xué)。

使用這種低精度數字的最大挑戰是保持準確性,Nvidia 的產(chǎn)品營(yíng)銷(xiāo)總監 Dave Salvator 說(shuō)。他說(shuō),為了保持 MLPerf 提交所需的高精度,Nvidia 團隊必須在軟件方面進(jìn)行重大創(chuàng )新。

Blackwell 成功的另一個(gè)重要貢獻是它的內存帶寬幾乎翻了一番,為 8 TB/秒,而 H200 的內存帶寬為 4.8 TB/秒。

圖片.png

英偉達 GB2800 格蕾絲布萊克威爾超級芯片英偉達

Nvidia 提交的 Blackwell 使用了單個(gè)芯片,但 Salvator 表示,它是為網(wǎng)絡(luò )和擴展而構建的,并且在與 Nvidia 的 NVLink 互連結合使用時(shí)性能最佳。Blackwell GPU 支持多達 18 個(gè) NVLink 每秒 100 GB 連接,總帶寬為每秒 1.8TB,大約是 H100 互連帶寬的兩倍。

Salvatore 認為,隨著(zhù)大型語(yǔ)言模型規模的增加,即使是推理也需要多 GPU 平臺來(lái)滿(mǎn)足需求,而 Blackwell 就是為這種可能性而構建的?!癇lackwell 是一個(gè)平臺,”Salvator 說(shuō)。

Nvidia 在預覽子類(lèi)別中提交了他們基于 Blackwell 芯片的系統,這意味著(zhù)它尚未出售,但預計將在六個(gè)月后的下一個(gè) MLPerf 版本之前上市。

在功耗和邊緣領(lǐng)域大放異彩

對于每個(gè)基準測試,MLPerf 還包括一個(gè)電能測量對應物,它系統地測試每個(gè)系統在執行任務(wù)時(shí)消耗的電能。主賽事(數據中心封閉能源類(lèi)別)本輪只有兩個(gè)提交者:Nvidia 和 。雖然 Nvidia 參加了所有基準測試,但 Untether 只提交了圖像識別。

提交者

加速器

加速器數量

每秒查詢(xún)數

每秒每 Watt 的查詢(xún)數

英偉達

英偉達 H200-SXM-141GB

8

480,131.00

5,013.79

95.76

UntetherAI

UntetherAI   速度AI240   Slim

6

309,752.00

985.52

314.30

這家初創(chuàng )公司通過(guò)使用一種稱(chēng)為內存計算的方法構建芯片,實(shí)現了這種令人印象深刻的效率。UntetherAI 的芯片構建為內存元件網(wǎng)格,小型處理器直接散布在它們旁邊。處理器是并行化的,每個(gè)處理器都與附近內存單元中的數據同時(shí)工作,從而大大減少了在內存和計算內核之間來(lái)回切換模型數據所花費的時(shí)間和精力。

“我們看到的是,執行 AI 工作負載的 90% 的能源只是將數據從 DRAM 移動(dòng)到緩存再到處理元件,”Untether AI 產(chǎn)品副總裁 Robert Beachler 說(shuō)?!八?Untether 所做的就是扭轉這種情況......我不是將數據移動(dòng)到計算中,而是將計算中移到數據中。

事實(shí)證明,這種方法在 MLPerf 的另一個(gè)子類(lèi)別中特別成功:邊緣閉合。Beachler 說(shuō),此類(lèi)別面向更多的實(shí)際用例,例如工廠(chǎng)車(chē)間的機器檢查、導視機器人和自動(dòng)駕駛汽車(chē),這些應用對低能耗和快速處理至關(guān)重要。

提交者

GPU   類(lèi)型

GPU   數量

單流延遲   (ms)

多流延遲   (ms)

采樣/秒

聯(lián)想

NVIDIA   L4

2

0.39

0.75

25,600.00

聯(lián)想

英偉達 L40S

2

0.33

0.53

86,304.60

UntetherAI

UntetherAI   speedAI240 預覽

2

0.12

0.21

140,625.00

在圖像識別任務(wù)上,SpeedAI240 Preview 芯片再次是唯一報告結果的 UntetherAI 芯片,其延遲性能比 NVIDIA L40S 高出 2.8 倍,其吞吐量(每秒樣本數)高出 1.6 倍。這家初創(chuàng )公司也提交了該類(lèi)別的強大結果,但他們的 Nvidia 加速競爭對手沒(méi)有,因此很難進(jìn)行直接比較。然而,UntetherAI 的 speedAI240 Preview 芯片每個(gè)芯片的標稱(chēng)功耗為 150 瓦,而 Nvidia 的 L40s 為 350 瓦,導致標稱(chēng)功耗降低 2.3 倍,延遲得到改善。

Cerebras、Furiosa 跳過(guò) MLPerf 但宣布推出新芯片

圖片.png

Furiosa 的新芯片以一種不同的、更高效的方式實(shí)現了 AI 推理的基本數學(xué)功能,即矩陣乘法。 FURIOSA (飛躍)

昨天在斯坦福大學(xué)舉行的 IEEE Hot Chips 會(huì )議上,Cerebras 推出了自己的推理服務(wù)。這家位于加利福尼亞州桑尼維爾的公司生產(chǎn)硅晶片允許的巨型芯片,從而避免了芯片之間的互連,并大大增加了其設備的內存帶寬,這些設備主要用于訓練大規模神經(jīng)網(wǎng)絡(luò )?,F在,它已經(jīng)升級了其軟件堆棧,以使用其最新的計算機 CS3 進(jìn)行推理。

盡管 Cerebras 沒(méi)有提交給 MLPerf,但該公司聲稱(chēng)其平臺在每秒生成的 LLM 代幣方面比 H100 高 7 倍,比競爭對手的 AI 初創(chuàng )公司 Groq 的芯片高出 2 倍?!敖裉?,我們正處于 Gen AI 的撥號時(shí)代,”Cerebras 首席執行官兼聯(lián)合創(chuàng )始人 Andrew Feldman 說(shuō)?!斑@是因為存在內存帶寬障礙。無(wú)論是 Nvidia 的 H100 還是 MI 300 或 TPU,它們都使用相同的片外內存,并且會(huì )產(chǎn)生相同的限制。我們突破了這一點(diǎn),我們之所以這樣做,是因為我們是晶圓級的。

Hot Chips 還看到了首爾 Furiosa 的公告,展示了他們的第二代芯片 RNGD(發(fā)音為“renegade”)。Furiosa 芯片的不同之處在于其張量收縮處理器 (TCP) 架構。AI 工作負載中的基本操作是矩陣乘法,通常作為硬件中的基元實(shí)現。但是,矩陣的大小和形狀(通常稱(chēng)為張量)可能會(huì )有很大差異。RNGD 將這個(gè)更廣義的版本 Tensors 的乘法實(shí)現為基元?!霸谕评磉^(guò)程中,批量大小差異很大,因此利用給定張量形狀的固有并行性和數據重用非常重要,”Furiosa 創(chuàng )始人兼首席執行官 June Paik 在 Hot Chips 上說(shuō)。

雖然沒(méi)有提交給 MLPerf,但 Furiosa 在內部將其 RNGD 芯片的性能與 MLPerf 的 LLM 摘要基準測試進(jìn)行了比較。它的性能與 Nvidia 面向邊緣的 L40S 芯片相當,而 L40S 的功率為 185 瓦,而 L40S 為 320 瓦。而且,Paik 說(shuō),隨著(zhù)軟件的進(jìn)一步優(yōu)化,性能將得到提高。

IBM 還宣布了其專(zhuān)為企業(yè)生成式 AI 工作負載設計的新型 Spyre 芯片,將于 2025 年第一季度上市。

至少,在可預見(jiàn)的未來(lái),AI 推理芯片市場(chǎng)上的購物者不會(huì )感到無(wú)聊。



評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>