<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 英偉達遙遙領(lǐng)先?

英偉達遙遙領(lǐng)先?

發(fā)布人:旺材芯片 時(shí)間:2024-03-31 來(lái)源:工程師 發(fā)布文章

近日,發(fā)布的最新 MLPerf Inference 基準測試 (4.0) 結果并沒(méi)有令人吃驚。隨著(zhù) MLPerf 繼續跟上快速發(fā)展的 ML 技術(shù)的步伐,基準套件中添加了兩個(gè)新的工作負載 - Llama 2 和 Stable Diffusion XL。Nvidia 展示了 H100 和 H200 的結果,高通的 Cloud AI 100 Ultra(預覽類(lèi)別)和 Intel/Habana 的 Gaudi 2 顯示出收益。英特爾擁有唯一的 CPU 作為加速器。


瞻博網(wǎng)絡(luò )是首次參展,展示了網(wǎng)絡(luò )的重要性。紅帽和 Supermicro 聯(lián)合提交了一份利用 OpenShift AI 的文件。云基礎設施提供商 Wiwynn 是另一位新提交者。


總體而言,近年來(lái)提交者數量相當穩定。此次共有 23 家企業(yè),其中包括 ASUSTeK、Azure、Broadcom、Cisco、CTuning、Dell、Fujitsu、Giga Computer、Google、Hewlett Packard Enterprise、Intel、Intel Habana Labs、Juniper Networks、Krai、Lenovo、NVIDIA、Oracle、Qualcomm Technologies, Inc .、廣達云科技、紅帽、Supermicro、司馬和緯穎科技。MLPerf Inference v4.0 包含來(lái)自 23 個(gè)提交組織的 8500 多個(gè)性能結果和 900 個(gè) Power 結果。


由于推理加速器的粗略排序(至少目前看來(lái)已經(jīng)確定),英偉達與競爭對手之間令人震驚的條形圖缺失了。Nvidia 加速計算產(chǎn)品總監 David Salvator 發(fā)表了更有趣的言論之一,他表示推理收入目前占 Nvidia 數據中心收入的 40%。


“推理已成為我們數據中心活動(dòng)和業(yè)務(wù)的重要組成部分,”Salvator 表示,“在我們上次的財報電話(huà)會(huì )議上,我們表示它約占我們去年數據中心收入的 40%。部分原因是我們看到了這種交叉,推理正在成為更占主導地位的工作負載。[原因]是應用程序部署后,這些應用程序通常會(huì ) 24/7 運行。通過(guò)訓練,你完成了一次訓練,基本上就完成了,至少暫時(shí)完成了。據推斷,一旦部署該應用程序,它就會(huì )一直運行,并開(kāi)始消耗整個(gè)人工智能工作負載的很大一部分?!?/p>



自 2018 年推出以來(lái),MLPerf 已穩步成為加速器市場(chǎng)的固定產(chǎn)品,雖然在此過(guò)程中可能不那么令人興奮,但對于比較特定用例的不同配置的系統很有用。Top500 中沒(méi)有唯一的獲勝者。MLPerf 基準測試組織者 MLCommons 的執行董事 David Kanter 始終指出,要從結果中獲取價(jià)值,有必要深入挖掘數據并逐個(gè)比較系統。


“對我來(lái)說(shuō),基準測試的目的是讓整個(gè)行業(yè)保持一致。這有助于向買(mǎi)家提供信息,幫助他們做出決策并了解系統(無(wú)論是本地系統、云系統還是嵌入式系統)如何執行相關(guān)工作負載。因此,如果您想購買(mǎi)一個(gè)系統來(lái)運行大型語(yǔ)言模型推理,您可以使用基準測試來(lái)幫助指導您。與此同時(shí),對于正在制定解決方案的行業(yè)人士來(lái)說(shuō),這些基準可以幫助我們了解如何優(yōu)化如何改進(jìn),”坎特說(shuō)。


“我們在這里添加了兩個(gè)新的基準。它們都是生成式人工智能基準。第一個(gè)是 Stable Diffusion XL,它是文本到圖像的生成。我們還添加了用于問(wèn)答的 Llama 2 大型語(yǔ)言模型?,F在,這兩者都要求我們提出服務(wù)器、服務(wù)器模式以及離線(xiàn)模式的延遲。我想在這里強調的一件事是這張圖表,顯示了隨著(zhù)時(shí)間的推移,MLPerf 推理模型的參數計數是什么樣的。你可以看到,這就像一般的人工智能一樣,它很像一根曲棍球桿,放在右邊。我認為在我們的第一輪 MLPerf Inference (v.5) 中,最大的模型大約有 2 億個(gè)參數,而現在我們已經(jīng)達到 700 億個(gè),”他說(shuō)。


(第一個(gè) MLPerf 推理結果于 2019 年發(fā)布,其中五個(gè)基準測試集中于圖像分類(lèi)、對象檢測和機器翻譯這三個(gè)任務(wù)。)


MLCommons 通過(guò)添加發(fā)布在 MLCommons 網(wǎng)站上的兩個(gè)新基準來(lái)更深入地了解其決策過(guò)程。完成這項工作的團隊組成由Intel、AMD、谷歌、英偉達、KRAI等多家公司,強化了競爭對手公司之間合作的理念。



實(shí)際上,從結果中挖掘價(jià)值需要做一些工作。在這一輪中,MLPerf 結果將在不同的平臺(Tableau)上呈現,并且至少對我來(lái)說(shuō),有效使用這個(gè)強大平臺有一個(gè)學(xué)習曲線(xiàn)。也就是說(shuō),數據就在那里。根據過(guò)去的做法,MLCommons 邀請基準測試參與者提交有關(guān)其條目的聲明,這些聲明放在文章末尾。


Nvidia 繼續前進(jìn)


Nvidia 仍然是廣泛的人工智能加速器領(lǐng)域的王者,也是解決所有工作負載的唯一提交者。


MLCommons 通常會(huì )為媒體和分析師舉行概述預簡(jiǎn)報,參與者可以對結果發(fā)表評論,但不要進(jìn)行直接的競爭比較。各個(gè)公司可以自由地進(jìn)行單獨的簡(jiǎn)報來(lái)獲得競爭分數。


英偉達從不缺乏競爭熱情,在其私人簡(jiǎn)報中相對謙虛,這促使一位分析師問(wèn)道:“似乎缺少一件事。您通常會(huì )展示一張幻燈片,其中包含您提交的所有不同基準的條形圖,以及它們與之前的[運行]的比較以及/或與競爭對手的比較。我在這個(gè)幻燈片中沒(méi)有看到這一點(diǎn)。那是怎么回事?”


Salvator 說(shuō):“嗯,所以結果將在 ML Commons 網(wǎng)站上廣泛發(fā)布,我們決定在這一輪中重點(diǎn)關(guān)注較新的工作負載,特別是 Llama 2 工作負載  ,我們認為它真正代表了當前的狀態(tài)藝術(shù)的。我們確實(shí)提交了每個(gè)工作負載,并且數字就在那里。就 Ilama 2 而言,我們確實(shí)展示了英特爾/Habana 與 Gaudi2 的競爭性提交……這是提交的其他主要加速器。坦率地說(shuō),我們還提交了一些其他以 CPU 為中心的結果,那些結果比這些要快得多?!?/span>


相反,Salvator 重點(diǎn)關(guān)注日益增長(cháng)的推理復雜性、Nvidia TensorRT-LLM編譯器的進(jìn)步以及其在提升 H100 和 H200 性能 Llama 2 方面的有效性?;?H200 的系統已進(jìn)入預覽類(lèi)別,因為在提交時(shí)它們是他說(shuō),雖然尚未推出,但現在已經(jīng)推出,并引用聯(lián)想作為現已推出 H200 系統的供應商之一。



Salvator 所涵蓋的大部分材料在一周前的 GTC24 會(huì )議上已被觸及。他討論了 Nvidia MGX、其使用不同機箱和熱足跡的模塊化參考設計以及 Nvidia 推理微服務(wù) ( NIM )。


當被問(wèn)及即將推出的 Blackwell GPU、B100 和 B200 以及它們與現有 H100 和 H200 系統的直接兼容性時(shí),Salvator 表示:“我們并未將 B200 設計為與 H200 CTS 系統直接兼容。直接兼容方面更關(guān)注 B100,因為我們擁有相當大的 H100 基礎服務(wù)器安裝基礎,而且我們的許多合作伙伴都知道如何構建這些服務(wù)器。因此,能夠輕松更換 B100 基板的能力使它們能夠更快地上市。B200 將需要不同的底盤(pán)設計。它不會(huì )與 H200 系統直接兼容?!?/p>


英特爾/Habana 大力宣傳性能和成本


近年來(lái),英特爾已經(jīng)進(jìn)入 MLPerf 領(lǐng)域,宣傳其 Gaudi 加速器系列是 Nvidia GPU 的高性能、低成本替代品,其第五代 Xeon CPU 非常適合推理或訓練只占較小部分的系統?;旌瞎ぷ髫撦d。


在基于最新 MLPerf 推理運行進(jìn)行比較時(shí),英特爾展示了 Gaudi 2 與 Nvidia H100 在 Stable Diffusion XL 和 Llama 2 工作負載上的性能和成本比較。


以下是英特爾供應商聲明的一部分:“英特爾 Gaudi 2 加速器是一款 7 納米處理器,為 MLPerf Inference 上最先進(jìn)的模型提供了可靠的性能結果。在 Stable Diffusion XL 上,Gaudi 2 加速器的每秒離線(xiàn)采樣數和每秒服務(wù)器查詢(xún)數分別為 6.26 和 6.25,對于 Llama v2-70B,每秒離線(xiàn)令牌數和服務(wù)器令牌數為 8035.0 和 6287.5,分別。鑒于客戶(hù)對 Hugging Face TGI(文本生成接口)的強烈需求,英特爾使用支持連續批處理和張量并行的 TGI 服務(wù)工具包提交了 Llama 結果,從而提高了實(shí)際 LLM 擴展的效率。英特爾 Gaudi 軟件套件繼續擴大我們最高客戶(hù)需求的法學(xué)碩士和多模式模型的覆蓋范圍?!?/p>



在英特爾單獨的預發(fā)布會(huì )上,Habana Labs 首席工程師兼高級研究員 Itay Hubara 表示:“我們非常高興能夠提交TGIK,這是一個(gè)開(kāi)源服務(wù)擁抱臉,是目前最常用的擁抱臉。服務(wù)于最高需求的社會(huì )。您可以在右側看到基于第三方評估的價(jià)格表現標準化。我覺(jué)得這是一個(gè)公平的比較?!?/p>


他表示,成本比較是基于系統成本,而不是運營(yíng)成本,但沒(méi)有提供更多細節。


英特爾至強人工智能產(chǎn)品總監 Ronak Shah 補充道:“Gaudi 一直在跨越式發(fā)展,以實(shí)現我們提供易用性的目標,無(wú)論是通過(guò) pytorch 等標準框架,還是在應用中利用 Hugging Faces TGI該提交使您能夠獲得開(kāi)箱即用的性能,并通過(guò)行業(yè)中可用的標準框架提供這些類(lèi)型的結果?!?/p>


這是英特爾第五代至強處理器首次出現在 MLPerf 中,Shah 展示了其與第四代至強處理器對比的結果。



“在上面的幻燈片可以看到,與第四代至強和之前提交的產(chǎn)品相比,我們的性能提高了 1.42 倍。令我興奮的是,我們在 2023 年初推出了第四代至強,并在 2023 年底推出了第五代,在一年之內,它是從第四代到第五代的硬件和增強功能的組合,以及軟件優(yōu)化能夠將性能提高 1.42 倍。令人興奮的是我們能夠實(shí)現如此大的收益,并且我們能夠真正利用一些底層架構的增強功能,”Shah 說(shuō)。


沙阿指出,英特爾這次有五個(gè)合作伙伴提交了申請?!拔覀冇形鍌€(gè)合作伙伴提交了申請,這一事實(shí)表明他們也認識到這就是至強的關(guān)鍵優(yōu)勢所在;當你擁有混合通用工作負載或通用應用程序并且將人工智能注入其中時(shí),就屬于這種情況?!边@五個(gè)合作伙伴是思科、戴爾、廣達、超微和 WiWynn。


總體而言,MLPerf 中提交的系統范圍相當廣泛。這里列出了一些供應商提交的聲明的摘錄(聲明的完整列表附在下面):


  • 瞻博網(wǎng)絡(luò ):“對于 MLPerf Inference 4.0,瞻博網(wǎng)絡(luò )提交了針對 Llama 2 的一套測試,該模型具有 700 億參數的大語(yǔ)言模型 (LLM),該模型在瞻博網(wǎng)絡(luò )驗證設計 (JVD) 上運行,該設計由脊葉網(wǎng)絡(luò )拓撲和軌道優(yōu)化設計。多節點(diǎn)數據中心設置由瞻博網(wǎng)絡(luò )人工智能優(yōu)化的以太網(wǎng)結構提供支持,包括用于 GPU 間通信的帶有 ROCEv2 的 QFX 系列交換。測試和驗證是在 Juniper AI 實(shí)驗室的 NVIDIA A100 和 H100 集群上進(jìn)行的,具有軌內和軌間組合。這是有史以來(lái)第一次向 MLCommons 提交多節點(diǎn)以太網(wǎng)?!?/p>


  • 高通: “在 v4.0 輪中,高通推出了人工智能推理加速器 Cloud AI 100 Ultra,并提交了‘封閉預覽’模式評估。Cloud AI 100 Ultra 的早期預覽結果展示了其在低功耗下的卓越性能,其在 ML 基準測試中的性能證明了這一點(diǎn)。與 Cloud AI 100 Pro 提交的內容相比,所有 Cloud AI 100 Ultra 提交的內容均表現出 2.5 至 3 倍的性能提升,同時(shí)每個(gè)加速器的功耗低于 150W。除了 NLP 和計算機視覺(jué)網(wǎng)絡(luò )之外,我們還引入了 GenAI Stable Diffusion XL 提交。我們的合作伙伴戴爾、HPE 和聯(lián)想也提交了 Cloud AI 100 Ultra 卡的預覽結果?!?/p>


  • 紅帽和 Supermicro:“大型 AI 數據中心基礎設施建設者 Supermicro 和全球領(lǐng)先的企業(yè)開(kāi)源解決方案提供商 Red Hat Inc 合作提交了第一個(gè) Red Hat OpenShift AI MLPerf Inference v4.0。此提交展示了 OpenShift AI 模型服務(wù)堆棧的靈活性,可通過(guò)使用自定義運行時(shí)功能來(lái)支持 vLLM 等開(kāi)源 LLM 運行時(shí)。我們還感到自豪的是,我們是本輪中唯一在 Nvidia GPU 上使用 vLLM 提交 GPT-J-6b 和 llama-2-70b 結果的結果,無(wú)需任何量化或模型編譯?!?/p>


  • Wewynn: “在邊緣類(lèi)別中,我們對配備兩個(gè) NVIDIA L40S GPU 的 ES200G2 進(jìn)行了基準測試,適用于圖像識別或其他人工智能應用等邊緣應用。在數據中心類(lèi)別中,我們對配備英特爾第五代至強處理器的ES200G2進(jìn)行了基準測試,該處理器可以組成服務(wù)器池來(lái)執行各種任務(wù)。這兩項結果都表明該平臺能夠運行流行的人工智能框架并取得良好的性能?!?/p>


接下來(lái)是預計在 6 月份進(jìn)行的MLPerf培訓。


MLPERF 供應商提交的聲明

華碩

在 MLPerf v4.0 推理基準測試中追求卓越的過(guò)程中,華碩的努力超越了單純的性能和可靠性?xún)?yōu)化,以推進(jìn)各個(gè)領(lǐng)域部署的人工智能技術(shù)。我們擁護社區參與的精神,認識到其在促進(jìn)機器學(xué)習領(lǐng)域的協(xié)作、知識共享和集體進(jìn)步方面的關(guān)鍵作用。


性能調整:與華碩 ESC8000-E11P、英特爾第四代至強可擴展處理器和 NVIDIA H100 PCIe GPU 解決方案一起,我們努力的核心是對性能優(yōu)化的不懈追求。利用 GPU 服務(wù)器強大的計算能力,我們開(kāi)始對基礎設施的各個(gè)方面進(jìn)行微調。通過(guò)細致的實(shí)驗和創(chuàng )新技術(shù),我們在吞吐量、延遲和效率方面取得了顯著(zhù)的提高。我們的解決方案經(jīng)過(guò)精心設計,可充分發(fā)揮 GPU 的潛力,在現實(shí)推理場(chǎng)景中提供無(wú)與倫比的速度和響應能力。


可靠性增強:除了 MLperf Inference v4.0 之外,我們還非常重視增強 GPU 服務(wù)器的可靠性。認識到穩定性在關(guān)鍵任務(wù)應用程序中的至關(guān)重要性,我們實(shí)施了強大的機制來(lái)減少停機時(shí)間、防止瓶頸并增強容錯能力。嚴格的測試和驗證程序確保我們的基礎設施在不同的工作負載和操作條件下始終提供可靠的性能。


社區參與:除了技術(shù)實(shí)力之外,我們對 MLPerf 社區的承諾也是我們成功的基石。我們積極參與知識交流論壇,貢獻見(jiàn)解,并與同行合作推動(dòng)創(chuàng )新向前發(fā)展。通過(guò)分享最佳實(shí)踐、經(jīng)驗教訓和從我們的旅程中獲得的見(jiàn)解,我們?yōu)樯鐓^的集體智慧做出貢獻,營(yíng)造協(xié)作和共同成長(cháng)的環(huán)境。


結論:在 MLPerf 4.0 推理基準領(lǐng)域,我們的成就不僅僅通過(guò)性能指標和可靠性基準來(lái)衡量。它們同樣植根于我們對社區參與和協(xié)作精神的奉獻。隨著(zhù)我們不斷突破可實(shí)現的界限,我們對推動(dòng)機器學(xué)習領(lǐng)域集體進(jìn)步的承諾仍然堅定不移。在協(xié)作和共享知識的推動(dòng)下,我們共同邁向創(chuàng )新無(wú)極限的未來(lái)。


博通

作為虛擬化技術(shù)的領(lǐng)導者,VMware by Broadcom 為全球企業(yè)提供創(chuàng )新的數據中心管理基礎架構解決方案,幫助客戶(hù)高效、安全、靈活地構建、運行和管理應用程序。對于機器學(xué)習 (ML) 和人工智能 (AI) 工作負載,我們的軟件解決方案與大多數硬件供應商合作,以大規模支持這些工作負載。 


Broadcom、戴爾和 NVIDIA 合作,將虛擬化的魔力引入加速器數據中心的 MLPerf Inference v4.0。除了傳統基準測試之外,Broadcom、戴爾和 NVIDIA 還為新的穩定擴散(文本到圖像)基準測試提交了出色的結果。我們的結果提供了接近裸機或更好的性能,并增加了數據中心管理的虛擬化優(yōu)勢。


我們在配備 8 個(gè)虛擬化 NVIDIA SXM H100 80GB GPU 的 Dell XE9680 和配備 2 個(gè)虛擬化 NVIDIA L40S 80GB GPU 以及 vSphere 8.02 和 NVIDIA vGPU 的 Dell R760 上運行 MLPerf 推理工作負載。我們測試中使用的虛擬機僅分配了 120 – 224 個(gè)可用 CPU 中的 32 個(gè),以及 1T – 1.5T 可用內存中的 128 GB。我們只使用了系統容量的一小部分。因此,客戶(hù)可以使用同一系統上的剩余 CPU 和內存容量來(lái)運行其他工作負載,節省 ML/AI 基礎設施的成本,并利用 VMware vSphere 的虛擬化優(yōu)勢來(lái)管理數據中心。我們的結果與上述裸機的比較表明,配備 NVIDIA 虛擬化 GPU 的 vSphere 8.0.2 是 AIML 工作負載的最佳選擇。


思科

各行各業(yè)的企業(yè)都在認識到人工智能/機器學(xué)習的真正潛力。人工智能 (AI) 和機器學(xué)習 (ML) 正在為企業(yè)解決復雜問(wèn)題開(kāi)辟新途徑。


思科是 MLCommons 社區的新成員。思科與英特爾合作,成功提交了大型語(yǔ)言模型 (LLM)、圖像分類(lèi)(視覺(jué))、對象檢測(視覺(jué))和語(yǔ)音轉文本(語(yǔ)音)數據中心類(lèi)別的 MLperf v4.0 推理結果。


思科提交了配備 Intel Xeon第五代處理器的 Cisco UCS C240 M7 服務(wù)器的推理結果。配備英特爾第五代至強可擴展處理器的思科 UCS C240 M7 服務(wù)器以 2RU 外形尺寸提供領(lǐng)先的性能和更高的效率,是 AI 推理的理想平臺。


作為 MLCommons 社區的新成員,思科將繼續支持社區為各種 AI 訓練、推理和 HPC 工作負載對服務(wù)器解決方案進(jìn)行基準測試的努力。在最新的MLPerf 4.0 Inference中,思科提交了在Cisco UCS C240 M7平臺上使用英特爾至強第五代處理器的結果,結果表明系統在大多數推理模型中都取得了優(yōu)異的性能。


CTuning

在本輪提交中,我們測試了第二代MLCommons CM-MLPerf 工作流程和CK 游樂(lè )場(chǎng),以在基于 Nvidia、Intel、Amazon 和 Qualcomm 的商品硬件上自動(dòng)對各種邊緣服務(wù)器、筆記本電腦和云提供商(包括 AWS 和 Cirrascale)進(jìn)行基準測試( 9528 中的性能結果為 8683,988 中的功率結果為 905)。


CM-MLPerf 的目標是提供單一且人性化的命令行、簡(jiǎn)單的 GUI和可擴展的 Python、C++ 和網(wǎng)絡(luò )實(shí)現模板,以運行來(lái)自不同供應商的所有 MLPerf 推理基準測試并以統一和自動(dòng)化的方式提交結果。


新版本的 CM-MLPerf 是由cTuning 基金會(huì )和cKnowledge根據上一輪提交后 MLCommons 的要求并感謝 MLCommons 成員和研究社區(ACM/IEEE MICRO'23和SuperComputing'23)的反饋而開(kāi)發(fā)的。

CM-MLPerf 工作流程首次成功實(shí)現了所有邊緣+數據中心工作負載(使用 llama2-7b 模型完成的 llama2 提交)以及來(lái)自 Nvidia、Intel、Qualcomm、Neural Magic 和 MLCommons 的各種實(shí)現的自動(dòng)化。


我們也非常自豪能夠首次使用 MLCommons CM 在云端對 Qualcomm Cloud AI 100 系統進(jìn)行基準測試,并感謝 Qualcomm 的支持。我們還感謝來(lái)自英特爾、英偉達和谷歌的同事的反饋和建議。


我們邀請每個(gè)人使用和增強MLCommons CM-MLPerf 自動(dòng)化,并參與一個(gè)新項目,以使用 MLPerf 和 CM作為協(xié)作工程工作,自動(dòng)共同設計高性能且經(jīng)濟高效的 AI 應用程序和系統。


下圖由CM-LPerf 瀏覽器插件生成,顯示了我們提交系統(均使用 Nvidia RTX 4090)上邊緣模型的延遲,是提交給 MLPerf 推理的最佳延遲之一。Nvidia RTX 4090 還顯示出令人印象深刻的離線(xiàn)和服務(wù)器性能,如我們的數據中心結果所示。


戴爾科技

戴爾憑借最廣泛的 GenAI 解決方案脫穎而出,涵蓋從臺式機到數據中心再到云的所有內容。該公司處于人工智能發(fā)展的最前沿,戴爾PowerEdge XE服務(wù)器系列為這一變革之旅奠定了基礎。


在 MLPerf 推理 v4.0 基準測試領(lǐng)域,戴爾科技集團通過(guò)提交各種模型的 281 個(gè)結果來(lái)展示其承諾,其中包括使用 Qualcomm、Broadcom 的 CPU 和加速器對新的 Llama2-70b、Stable Diffusion XL、GPT-J 進(jìn)行的測試、英偉達和英特爾。測試涵蓋了廣泛的產(chǎn)品,展示了戴爾通過(guò) PowerEdge 服務(wù)器系列滿(mǎn)足不同人工智能工作負載的能力。


Dell PowerEdge XE系列,特別是配備 NVIDIA Tensor Core H100 GPU 的產(chǎn)品,在大型語(yǔ)言模型、圖像分類(lèi)等領(lǐng)域展示了卓越的性能。此外,配備 NVIDIA L4 GPU 的 PowerEdge XR5610 凸顯了戴爾在系統效率方面的努力,優(yōu)化了邊緣工作負載的性能。


Dell PowerEdge XE 加速服務(wù)器系列在多個(gè)基準測試中繼續提供巨大的性能提升。以下是一些最新亮點(diǎn):

配備 8 個(gè) NVIDIA H100 Tensor Core GPU 的 PowerEdge XE9680 繼續在大語(yǔ)言模型、文本到圖像、語(yǔ)音到文本、語(yǔ)言處理、圖像分類(lèi)和推薦方面提供戴爾最佳性能結果。


4 GPU 直接液冷 Dell PowerEdge XE9640 和風(fēng)冷 PowerEdge XE8640 在 GenAI 模型、圖像分類(lèi)、對象檢測、語(yǔ)音轉文本、語(yǔ)言處理、摘要、醫學(xué)圖像分割等方面取得了出色的結果。


Dell PowerEdge XR5610 和 NVIDIA L4 GPU 針對邊緣工作負載提供出色的每 GPU 功耗比系統性能


戴爾邀請客戶(hù)通過(guò)在其全球客戶(hù)解決方案中心進(jìn)行試駕來(lái)探索這些進(jìn)步,提供與創(chuàng )新實(shí)驗室的協(xié)作以及訪(fǎng)問(wèn)卓越中心的機會(huì ),以更深入地了解人工智能解決方案。


富士通

富士通提供系統、解決方案和專(zhuān)業(yè)知識的完美結合,以保證最大的生產(chǎn)力、效率和靈活性,從而提供信心和可靠性。自2020年以來(lái),我們一直積極參與并提交數據中心和邊緣部門(mén)的推理和訓練輪次。


在這一輪中,我們使用兩個(gè)系統向數據中心封閉部門(mén)提交了參賽作品。第一個(gè)系統是 PRIMERGY CDI,配備安裝在外部 PCIe BOX 中的 16xL40S。第二個(gè)系統是GX2560M7,服務(wù)器內部配備4xH100-SXM。我們還使用 PRIMERGY CDI 向數據中心封閉式電力部門(mén)提交了參賽作品。


通過(guò)在三個(gè)外部 PCI-BOX 中安裝多達 20 個(gè) GPU,PRIMERGY CDI 可以用作單個(gè)節點(diǎn)。此外,系統配置可以根據訓練和推理工作負載的大小進(jìn)行調整。在這一輪中,我們在PRIMERGY CDI系統上安裝了16xL40S并運行穩定的擴散和gptj。測量結果如下圖所示。我們使用配備多個(gè)L40S的系統確認了如圖所示的性能。


我們的目標是通過(guò)創(chuàng )新建立社會(huì )信任,使世界更加可持續發(fā)展。憑借推動(dòng)創(chuàng )新和專(zhuān)業(yè)知識的豐富傳統,我們致力于為社會(huì )和尊貴客戶(hù)的發(fā)展做出貢獻。因此,我們將繼續滿(mǎn)足客戶(hù)的需求,并努力通過(guò) MLCommons 的活動(dòng)提供有吸引力的服務(wù)器系統。


Giga Computing

技嘉科技全資子公司,是從技嘉科技分拆出來(lái)的企業(yè)單位,設計、制造和銷(xiāo)售服務(wù)器、服務(wù)器主板、沉浸式解決方案和工作站。


作為 MLCommons 的創(chuàng )始成員之一,GigaComputing 持續支持社區為各種人工智能訓練和推理工作負載對服務(wù)器解決方案進(jìn)行基準測試的努力。繼上一次 v3.1 推理基準測試之后,GigaComputing 在最新一輪的 MLPerf Inference v4.0 中提交了強大的 GIGABYTE G593-SD1 系統,該系統配置了最新的第五代 Intel Xeon 可擴展處理器和八個(gè) NVIDIA H100 SXM5 GPU。該系統具有高數據帶寬和精心優(yōu)化的數據處理配置。結果不言而喻,展示了極高的效率,同時(shí)在所有基準測試任務(wù)中保持了頂級性能。我們在最新基準測試中取得的優(yōu)異成績(jì)凸顯了我們對提供頂級功能和優(yōu)化的承諾。


我們千兆計算的重點(diǎn)是持續改進(jìn),我們?yōu)橄到y評估提供遠程測試和公共基準就是例證。我們致力于提高效率并開(kāi)創(chuàng )先進(jìn)的冷卻技術(shù),例如浸入式和 DLC,以應對即將到來(lái)的功耗激增。請繼續關(guān)注,我們將繼續通過(guò)千兆計算突破卓越計算的界限。


谷歌云

NVIDIA GPU 與 Google Cloud 的基礎設施技術(shù)相結合,提供業(yè)界領(lǐng)先的規模和性能。8 月份,我們宣布A3 虛擬機現已全面上市;A3 由單個(gè)虛擬機中的 NVIDIA 8 H100 Tensor Core GPU 提供支持,專(zhuān)為訓練和服務(wù)要求苛刻的新一代 AI 工作負載和法學(xué)碩士而設計。A3 能夠通過(guò)達到 26 exaflops 的 AI 性能來(lái)達到超級計算能力。


對于 MLPerf Inference v4.0 基準測試,Google 提交了 20 個(gè)結果,包括使用 A3 VM 的新 Stable Diffusion XL 和 Llama 2 (70B) 結果。Stable Diffusion XL 和 Llama 2 結果與 NVIDIA 提交的材料所展示的峰值性能相差 1-4% 以?xún)?。強勁?A3 VM 結果證明了 Google Cloud 與 NVIDIA 的密切合作關(guān)系,專(zhuān)門(mén)為法學(xué)碩士和新一代人工智能構建工作負載優(yōu)化的端到端解決方案。


惠普

慧與 (HPE) 與 NVIDIA、高通和 KRAI 合作成功提交了結果,展示了一系列適用于數據中心的計算機視覺(jué) (CV)、自然語(yǔ)言處理 (NLP)、生成人工智能 (GenAI) 的高性能推理系統,以及大型語(yǔ)言模型(LLM)。HPE 服務(wù)器性能結果包含在數據中心封閉、數據中心開(kāi)放和數據中心網(wǎng)絡(luò )部門(mén)中。


HPE 提交了這些系統上的 AI 推理結果:

· HPE Cray 超級計算 (SC) XD670(配備 8 個(gè) NVIDIA H100 SXM 80GB,700W TDP*)

· HPE ProLiant DL380a Gen11 服務(wù)器(配備 4 個(gè) NVIDIA H100 PCIe 80GB、400W TDP*)

· HPE ProLiant DL380a Gen11 服務(wù)器(配備 4 個(gè) NVIDIA L40S PCIe 48GB、300W TDP*)

· HPE ProLiant DL380a Gen11 服務(wù)器(配備 8 個(gè) Qualcomm Cloud AI 100 Ultra 128GB、150W TDP*)

亮點(diǎn)包括:

· 配備 NVIDIA H100 SXM 的 HPE Cray SC XD670 在 Bert 99.0 離線(xiàn)場(chǎng)景下展示了 NLP 的最高性能結果

· 配備 4 個(gè) NVIDIA H100 PCIe 的 HPE ProLiant DL380a 在 Llama2 70B 型號上展示了對于四個(gè)或更少 PCIe 連接 GPU 的最高性能結果。

· 配備 4 個(gè) NVIDIA L40S 的 HPE ProLiant DL380a 在用于 CV、NLP、GenAI 和 LLM 的同類(lèi) GPU 中展示了良好的性能。

· HPE 在 HPE ProLiant DL380a Gen11 服務(wù)器中使用 8 個(gè) Qualcomm Cloud AI 100 Ultra 加速器提交了第一個(gè)關(guān)于 CV 和 NLP 的 MLPerf 推理預覽結果。


非常感謝 KRAI 的合作,為 Qualcomm Cloud AI 100 Ultra 加速器實(shí)現了高性能和高能效。


英特爾

英特爾提交了英特爾 Gaudi 2 AI 處理器的 MLPerf Inference v4.0 結果,并首次提交了第五代至強可擴展處理器。結果表明,英特爾致力于提供全系列人工智能產(chǎn)品,以滿(mǎn)足廣泛的客戶(hù)人工智能需求。


英特爾 Gaudi 2 加速器是一款 7 納米處理器,在 MLPerf Inference 上為最先進(jìn)的模型提供了可靠的性能結果。在 Stable Diffusion XL 上,Gaudi 2 加速器的每秒離線(xiàn)采樣數和每秒服務(wù)器查詢(xún)數分別為 6.26 和 6.25,對于 LLama v2-70B,每秒離線(xiàn)令牌數和服務(wù)器令牌數為 8035.0 和 6287.5,分別。鑒于客戶(hù)對 Hugging Face TGI(文本生成接口)的強烈需求,英特爾使用支持連續批處理和張量并行的 TGI 服務(wù)工具包提交了 LLama 結果,從而提高了實(shí)際 LLM 擴展的效率。英特爾 Gaudi 軟件套件不斷擴大對我們最高客戶(hù)需求的法學(xué)碩士和多模式模型的覆蓋范圍。


英特爾仍然是唯一提交 MLPerf 結果的 CPU 供應商。英特爾已從 2020 年開(kāi)始提交四代至強產(chǎn)品的 MLPerf 結果。英特爾提交的帶有英特爾高級矩陣擴展 (AMX) 的第五代英特爾至強可擴展處理器表明 CPU 對于通用 AI 工作負載具有出色的性能。由于硬件和軟件的改進(jìn),去年在 MLPerf Inference v3.1 中,英特爾第五代至強的結果比第四代至強的結果提高了 1.42 倍。


對于具有軟件優(yōu)化(包括連續批處理)的 GPT-J,英特爾提交的 Xeon 表現出與 v3.1 提交相比約 1.8 倍的性能提升。同樣,由于 MergedEmbeddingBag 和利用 AMX 的其他優(yōu)化,DLRMv2 顯示了約 1.8 倍的性能提升和 99.9 的準確度。


英特爾非常自豪能夠與 OEM 合作伙伴(思科、戴爾、廣達、Supermicro 和 WiWynn)合作交付他們自己的 MLPerf 提交文件。


通過(guò)持續的軟件更新和優(yōu)化,英特爾預計其加速器和 CPU 的性能和生產(chǎn)力將持續進(jìn)步。


瞻博網(wǎng)絡(luò )

對于 MLPerf Inference 4.0,瞻博網(wǎng)絡(luò )提交了一套針對 Llama 2 的測試,該模型具有 700 億參數的大語(yǔ)言模型 (LLM),該模型在瞻博網(wǎng)絡(luò )驗證設計 (JVD) 上運行,該設計由脊葉網(wǎng)絡(luò )拓撲和軌道優(yōu)化設計組成。多節點(diǎn)數據中心設置由瞻博網(wǎng)絡(luò )人工智能優(yōu)化的以太網(wǎng)結構提供支持,包括用于 GPU 間通信的帶有 ROCEv2 的 QFX 系列交換。測試和驗證是在 Juniper AI 實(shí)驗室的 NVIDIA A100 和 H100 集群上進(jìn)行的,具有軌內和軌間組合。這是有史以來(lái)第一次向 MLCommons 提交多節點(diǎn)以太網(wǎng)。


瞻博網(wǎng)絡(luò )很高興與 MLCommons 合作,加速人工智能 (AI) 創(chuàng )新,讓世界各地的公司能夠更簡(jiǎn)單、更快、更經(jīng)濟地部署 AI 數據中心基礎設施。LLama 等生成式 AI 突破了計算、存儲和網(wǎng)絡(luò )系統的性能界限。訓練這些模型是一個(gè)巨大的并行處理問(wèn)題,依賴(lài)于強大的網(wǎng)絡(luò )解決方案。AI 工作負載具有獨特的特征,并對網(wǎng)絡(luò )提出了新的要求,但解決此類(lèi)嚴峻挑戰正是瞻博網(wǎng)絡(luò ) 25 年來(lái)一直在做的事情。人工智能集群基礎設施要從早期階段走向大眾市場(chǎng),必須利用開(kāi)放技術(shù)來(lái)發(fā)揮產(chǎn)業(yè)生態(tài)的集體力量和創(chuàng )新能力。


瞻博網(wǎng)絡(luò )致力于采用運營(yíng)優(yōu)先的方法,利用基于意圖的網(wǎng)絡(luò )、AIOps 和 800Gb 以太網(wǎng)方面的市場(chǎng)領(lǐng)先功能,幫助客戶(hù)管理整個(gè) AI 數據中心網(wǎng)絡(luò )生命周期。以太網(wǎng)和我們的 Apstra 數據中心結構自動(dòng)化軟件等開(kāi)放技術(shù)消除了供應商鎖定,利用行業(yè)生態(tài)系統來(lái)降低成本并推動(dòng)創(chuàng )新,并支持跨 AI 訓練、推理、存儲和管理網(wǎng)絡(luò )的通用網(wǎng)絡(luò )操作。此外,經(jīng)過(guò)嚴格的預先測試和驗證的設計(例如瞻博網(wǎng)絡(luò )提交給 MLCommons 的設計)對于確??蛻?hù)能夠自行部署安全的數據中心基礎設施至關(guān)重要。


KRAI

KRAI 于 2020 年在“Silicon Fen”(英國劍橋)成立,是為設計超高效且經(jīng)濟高效的人工智能計算機系統而量身定制的優(yōu)質(zhì)基準測試和優(yōu)化解決方案的供應商。KRAI 團隊參加了全部 9 輪 MLPerf 推理輪,自 2019 年以來(lái),在 60 多名提交者中,只有另外三名提交者實(shí)現了這一壯舉。


v4.0 輪融資標志著(zhù)高通和 KRAI 之間長(cháng)達三年的密切合作。為了慶祝這一時(shí)刻,我們專(zhuān)注于通過(guò)本輪預覽的 Cloud AI 100 Ultra 加速器取得出色的成果。特別是,配備 16 個(gè)單寬 Ultra 加速器的 GIGABYTE G293-Z43 2U 服務(wù)器在 ResNet50 上每秒提供超過(guò) 900,000 個(gè)樣本,在 RetinaNet 上每秒提供近 15,500 個(gè)樣本。每個(gè) Ultra 加速器具有 64 個(gè) AI 核心,這一成就代表著(zhù)單個(gè)系統中線(xiàn)性擴展至 1,024 個(gè) AI 核心,之前的最高成就是 288 個(gè)核心(包含 18 個(gè) Pro 加速器)。超高性能、高效和可擴展推理的魔力/源已作為廣受好評的 KRAI 推理庫技術(shù) (KILT) 代碼庫的新公開(kāi)版本與社區共享。在這一輪中,Qualcomm、KRAI、HPE、Dell、Lenovo 和 CTuning 提交的材料中使用了 KILT。


作為 KRAI 的另一個(gè)值得驕傲的時(shí)刻,我們與 Google 合作,使用最新一代張量處理單元復制和優(yōu)化 LLM 提交的內容。歡迎 Google Cloud 客戶(hù)使用 KRAI X 技術(shù)自動(dòng)化的工作流程重現 TPU-v5e 結果。


我們感謝 HPE 提供對配備 8 個(gè) Cloud AI 100 標準加速器和 200GbE 網(wǎng)絡(luò )設備的 ProLiant DL385 服務(wù)器的訪(fǎng)問(wèn),這使得本輪中唯一的網(wǎng)絡(luò )封閉提交成為可能。至關(guān)重要的是,上一輪從 10GbE 進(jìn)行的網(wǎng)絡(luò )升級使我們能夠擴展對帶寬要求更高的 RetinaNet 基準測試,以及帶寬較少的 BERT 基準測試。


聯(lián)想

聯(lián)想致力于為所有人提供更智能的技術(shù)解決方案,包括硬件、軟件等。為了實(shí)現這一目標,我們使用 MLPerf Inference v.4.0 進(jìn)行研究和測試,使我們能夠展示我們在基準測試方面的領(lǐng)先成果。


通過(guò)與 MLCommons 的合作,聯(lián)想能夠每季度通過(guò) MLPerf 基準測試展示這些結果。我們與 NVIDIA 和 Intel 在圖像分類(lèi)、醫學(xué)圖像分割、語(yǔ)音轉文本和自然語(yǔ)言處理等重要 AI 任務(wù)上的合作使我們取得了領(lǐng)先的成果。


我們很自豪能夠使用配備 2 個(gè) NVIDIA L4 的 ThinkSystem SE360 以及配備 2 個(gè) NVIDIA L40 邊緣服務(wù)器的 SE450 和 SE455 來(lái)完成這些任務(wù)。這些合作使我們能夠根據領(lǐng)先的基準不斷為客戶(hù)改進(jìn)技術(shù)。


我們與 MLCommons 的合作關(guān)系為我們如何與競爭對手進(jìn)行比較提供了寶貴的見(jiàn)解,設定了客戶(hù)期望,并使我們能夠不斷增強我們的產(chǎn)品。通過(guò)這種合作,我們可以與行業(yè)專(zhuān)家密切合作,創(chuàng )造增長(cháng)并最終為我們的客戶(hù)提供更好的產(chǎn)品,這是我們的首要任務(wù)。


英偉達

我們很高興能夠在 MLPerf Inference v4.0 中展示 NVIDIA 加速計算平臺令人難以置信的推理性能。NVIDIA HGX H100 平臺集成了多達 8 個(gè)具有高速互連功能的 H100 Tensor Core GPU,借助我們的 TensorRT-LLM 軟件,與上一輪測試相比,GPT-J 測試的性能提高了近 3 倍。該推理優(yōu)化器和運行時(shí)通過(guò)開(kāi)源模塊化 Python API 提高了易用性和可擴展性,用于隨著(zhù)法學(xué)碩士的發(fā)展定義、優(yōu)化和執行新的架構和增強功能。


我們還很高興能夠使用 NVIDIA HGX H200 AI 超級計算平臺(由最新的 H200 Tensor Core GPU 提供支持)首次提交作品。HGX H200 采用高性能定制散熱解決方案,在新的 Llama 2 70B LLM 測試中,性能比 HGX H100 高出 45%。而且,NVIDIA GH200 Grace Hopper 超級芯片將 NVIDIA Grace CPU 與 NVIDIA Hopper GPU 結合在一個(gè)多功能、易于部署的模塊中,將 H100 GPU 的卓越性能擴展到法學(xué)碩士、文本到圖像生成 AI 和推薦人。


NVIDIA AI 平臺在整個(gè)技術(shù)堆棧中提供創(chuàng )新,端到端加速整個(gè) AI 工作流程(從數據準備到模型訓練,再到從云端到邊緣的部署推理),并在各種 AI 模型中實(shí)現出色的性能。各大云和服務(wù)器制造商也提供該服務(wù),并通過(guò) NVIDIA AI Enterprise 提供生產(chǎn) AI 和企業(yè)級支持的最快路徑。


我們很高興看到 14 家 NVIDIA 合作伙伴(包括華碩、Azure、Broadcom、思科、戴爾、富士通、GigaComputing、Google、HPE、聯(lián)想、甲骨文、廣達云技術(shù)、Supermicro 和 Wiwynn)提交了出色的推理結果,并且都在本地進(jìn)行以及涵蓋 NVIDIA 數據中心 GPU 產(chǎn)品組合的云解決方案。


我們還希望贊揚 MLCommons 正在開(kāi)展的工作,將基準測試最佳實(shí)踐引入計算領(lǐng)域,從而對 AI 和 HPC 平臺進(jìn)行同行評審的同類(lèi)比較,以更好地了解和比較不同工作負載的產(chǎn)品性能。


甲骨文

Oracle 云基礎設施 (OCI) 在我們的融合應用程序中提供人工智能基礎設施、生成式人工智能、人工智能服務(wù)、機器學(xué)習服務(wù)和人工智能。我們的 AI 基礎設施產(chǎn)品組合包括由 NVIDIA H100、NVIDIA A100 和 NVIDIA A10 GPU 提供支持的裸機實(shí)例和虛擬機。


高端 BM.GPU.H100.8 實(shí)例的推理基準測試結果表明,OCI 提供的高性能至少與本地和云基礎設施的其他部署相匹配。這些實(shí)例為每個(gè)節點(diǎn)提供八個(gè) NVIDIA GPU。除了推理之外,對于訓練工作負載,每個(gè)節點(diǎn)還可以使用高性能 RDMA 網(wǎng)絡(luò )對數萬(wàn)個(gè) GPU 進(jìn)行集群。


截至 2024 年 3 月,OCI 的 BM.GPU.H100.8 實(shí)例通過(guò) OCI 上的 NVIDIA GPU 提供最高可用性能。


云達科技

廣達云科技 (QCT) 是一家支持多樣化 HPC 和 AI 工作負載的全球數據中心解決方案提供商,在 MLCommons 發(fā)布的最新 MLPerf 結果中被列入 MLPerf 推理列表。


QCT參加了最新一輪的MLPerf Inference v4.0并向數據中心封閉部門(mén)提交了結果,包括針對不同系統配置的穩定擴散和llama2的新模型。


其中一項展示的配置采用了 QCT 的尖端平臺,即新推出的帶有 NVIDIA Grace Hopper Superchip 的 QuantaGrid S74G-2U。通過(guò) NVLink C2C 互連,CPU 和 GPU 之間的一致性?xún)却婵梢愿纳苾却婷芗?AI 推理。QCT在數據中心類(lèi)別的多項AI任務(wù)中取得了出色的表現。


QuantaGrid D54U-3U是一款專(zhuān)為AI/HPC設計的加速服務(wù)器。該 3U 系統支持兩個(gè)第五代英特爾至強可擴展處理器,支持四個(gè)雙寬加速卡或最多八個(gè)單寬加速卡,提供針對各種 AI/HPC 應用進(jìn)行優(yōu)化的全面而靈活的架構。這次,QCT 分別使用四張 NVIDIA H100 PCIe 卡和四張 NVIDIA L40S PCIe 卡驗證了結果。


另一種配置展示了 QCT 的 QuantaGrid D54X-1U 與僅 CPU 推理場(chǎng)景中的英特爾至強可擴展處理器。QCT 的僅 CPU 配置的服務(wù)器經(jīng)過(guò)驗證,能夠在采用 Intel AMX 指令集的通用 AI 工作負載中表現出色。


展望未來(lái),QCT 仍致力于為學(xué)術(shù)和工業(yè)用戶(hù)提供全面的硬件系統、解決方案和服務(wù)。該公司將繼續與 MLCommons 社區分享其 MLPerf 結果,為 MLPerf 推理和訓練基準的進(jìn)步做出貢獻。


高通

高通云人工智能推理加速器利用公司在高級信號處理和能效方面的專(zhuān)業(yè)知識,在數據中心和邊緣環(huán)境中提供高吞吐量、低功耗的人工智能推理處理。


在v4.0輪次中,高通推出了AI推理加速器Cloud AI 100 Ultra,并提交了“封閉預覽”模式評估。Cloud AI 100 Ultra 的早期預覽結果展示了其在低功耗下的卓越性能,其在 ML 基準測試中的性能證明了這一點(diǎn)。與 Cloud AI 100 Pro 提交的內容相比,所有 Cloud AI 100 Ultra 提交的內容均表現出 2.5 至 3 倍的性能提升,同時(shí)每個(gè)加速器的功耗低于 150W。除了 NLP 和計算機視覺(jué)網(wǎng)絡(luò )之外,我們還引入了 GenAI Stable Diffusion XL 提交。我們的合作伙伴戴爾、HPE 和聯(lián)想也提交了 Cloud AI 100 Ultra 卡的預覽結果。


在 Cloud AI 100 中,CTuning 首次使用由 8 個(gè) Cloud AI 100 標準加速器提供支持的 Amazon EC2 DL2q 云實(shí)例提交結果,實(shí)現了與獨立服務(wù)器相當的性能。CTuning 還使用由 4 個(gè) Cloud AI 100 Pro 加速器提供支持的 Cirrascale Quad AI 100 Cloud 實(shí)例提交了 MLPerf 基準測試,取得了與獨立系統相當的結果。


高通的 MLPerf Inference v4.0 結果在所有類(lèi)別的峰值離線(xiàn)性能和能效方面都超越了其之前的記錄。2U 數據中心服務(wù)器平臺配備 16 個(gè) Qualcomm Cloud AI 100 Ultra 加速器(150W TDP),在預覽模式下實(shí)現了超過(guò) 902K ResNet50 inf/秒的令人印象深刻的吞吐量。它還創(chuàng )下了新的高能效,ResNet50 達到 275 QPS/Watt,RetinaNet 達到 5.2 QPS/Watt,BERT 達到 10.2 QPS/Watt。

高通提交的這些結果是通過(guò)使用 KRAI 的 X 和 KILT 技術(shù)實(shí)現的。Qualcomm 和 Snapdragon 是高通公司的商標或注冊商標。Qualcomm Cloud AI 和 Snapdragon 是 Qualcomm Technologies, Inc. 和/或其子公司的產(chǎn)品。


紅帽+超微

大規模 AI 數據中心基礎設施建設者 Supermicro 和全球領(lǐng)先的企業(yè)開(kāi)源解決方案提供商 Red Hat Inc 合作提交了首個(gè) Red Hat OpenShift AI MLPerf Inference v4.0。紅帽 OpenShift AI 是一個(gè)靈活、可擴展的 MLOps 平臺,提供用于構建、部署和管理支持 AI 的應用程序的工具。


GPU A+ 服務(wù)器,AS-4125GS-TNRT具有靈活的 GPU 支持和配置選項:具有主動(dòng)和被動(dòng) GPU,以及最多 10 個(gè)雙寬、全長(cháng) GPU 的雙根或單根配置。此外,雙根配置具有直接連接 8 個(gè) GPU 的功能,無(wú)需 PLX 交換機,可實(shí)現盡可能低的延遲并提高性能,這對于我們的客戶(hù)面臨的 AI 和 HPC 工作負載的苛刻場(chǎng)景非常有利。


紅帽 OpenShift 讓您的 AI/ML 工作負載的創(chuàng )建、調度和監控變得更輕松、更安全。OpenShift Operators 發(fā)現、配置和監控您的 GPU、存儲設備和網(wǎng)絡(luò )設備,提供易用性、靈活性和安全性。


紅帽 OpenShift AI 是一個(gè)靈活、可擴展的 MLOps 平臺,提供用于構建、部署和管理支持 AI 的應用程序的工具。它使用開(kāi)源技術(shù)構建,為團隊提供值得信賴(lài)、操作一致的功能來(lái)進(jìn)行實(shí)驗、服務(wù)模型和交付創(chuàng )新應用程序。紅帽 OpenShift AI(以前稱(chēng)為紅帽 OpenShift Data Science)支持本地和公共云中的 AI/ML 實(shí)驗和模型的整個(gè)生命周期。

此提交展示了 OpenShift AI 模型服務(wù)堆棧的靈活性,可通過(guò)使用自定義運行時(shí)功能來(lái)支持 vLLM 等開(kāi)源 LLM 運行時(shí)。我們還感到自豪的是,我們是本輪中唯一在 Nvidia GPU 上使用 vLLM 提交 GPT-J-6b 和 llama-2-70b 結果的結果,無(wú)需任何量化或模型編譯。


SiMa

SiMa.ai 引領(lǐng)邊緣人工智能技術(shù),在性能和能源效率方面樹(shù)立了新標準。我們很高興在這份最新的 MLPerf 基準測試報告中分享我們的結果,與 2023 年 8 月提交的報告相比,我們在所有類(lèi)別中的 FPS 提高了 7% 到 16%。


在邊緣人工智能領(lǐng)域,有限的功率和苛刻的任務(wù)不斷在功率和效率之間造成緊張,我們能夠在 FPS 方面取得巨大進(jìn)步,同時(shí)仍然提高我們之前提交的 MLPerf 3.1 中所有工作負載的 FPS/W。該指標是我們的系統每消耗一瓦電量可以處理多少幀的關(guān)鍵指標。


我們的 FPS 提升,尤其是在 SingleStream 模式下超過(guò) 16%,是 MLPerf v4.0 提交中最令人印象深刻的結果之一,因為批次 1 性能的 SingleStream 是實(shí)際應用程序中的主要工作負載。這得益于 MLA Runtime 平臺軟件在優(yōu)化端到端模型執行方面的顯著(zhù)增強。我們進(jìn)步的真正力量在于將這些超越基準的改進(jìn)轉化為我們客戶(hù)的現實(shí)利益。他們體驗到所有模型的性能顯著(zhù)增強,在廣泛的邊緣人工智能應用中釋放了新的價(jià)值水平。


SiMa.ai 在 MLPerf 中的參與和表現是更廣泛增長(cháng)戰略的一部分,我們正在為當今和下一代更快、更強大的解決方案鋪平道路。我們不僅僅是進(jìn)行技術(shù)升級;這是一次戰略飛躍,鞏固了我們在邊緣人工智能性能、效率和創(chuàng )新方面的領(lǐng)導地位。


Supermicro

美超微在人工智能基礎設施解決方案方面表現出色,在 MLPerf Inference v4.0 競賽中展示了卓越的表現,在數據中心推理類(lèi)別的封閉和開(kāi)放組別中提交了參賽作品。


Supermicro 的使命是為各種工作負載提供應用優(yōu)化的系統。一個(gè)突出的例子是 SYS-821GE-TNHR,這是一款專(zhuān)為 NVIDIA HGX H100 8-GPU 平臺設計的可定制解決方案。該系統通過(guò)我們的構建塊方法量身定制,可滿(mǎn)足客戶(hù)的特定要求和工作負載需求。此外,我們現在為最新的基于 NVIDIA HGX 的系統以及基于 PCIe 的系統提供液體冷卻選項,使部署能夠利用更高 TDP 的 CPU 和 GPU,而無(wú)需進(jìn)行熱節流。


我們的 GPU 服務(wù)器經(jīng)過(guò)精心設計,可以有效處理大型數據集和高要求的工作負載。它們可以加快存儲訪(fǎng)問(wèn)速度、減少延遲并提高存儲帶寬,從而提高工作效率并加快任務(wù)完成速度。利用 NVIDIA GPU 和本地 DMA 和 RDMA 等高級訪(fǎng)問(wèn)方法,以及通過(guò)多個(gè) NIC 和交換機的高性能網(wǎng)絡(luò ),Supermicro GPU 服務(wù)器在 AI、機器學(xué)習和 HPC 任務(wù)中表現出色。


SYS-521GE-TNRT服務(wù)器配備L40S GPU,通過(guò)PCIe 5.0雙根交換機支持多達10個(gè)基于PCIe的GPGPU,提供卓越的處理能力。L40S GPU 配備 48GB GDDR6 顯存,理論性能高達 91.6 TFLOP,針對 AI 媒體和圖形應用進(jìn)行了優(yōu)化,對于高性能計算任務(wù)而言具有無(wú)可比擬的價(jià)值。此外,該配置還配備雙第四代英特爾至強可擴展處理器、高達 8TB 的內存容量以及帶有 24 個(gè)熱插拔 NVMe/SATA/SAS 驅動(dòng)器托架的充足存儲選項,為密集型計算任務(wù)提供可擴展性和效率。


Supermicro 為任何環(huán)境提供各種 GPU 系統,在多個(gè) MLPerf 基準測試中始終如一地提供高性能。展望未來(lái),我們仍然致力于微調我們的系統,為客戶(hù)提供優(yōu)化的體驗和性能。


Wiwynn

Wiwynn是一家領(lǐng)先的超大規模數據中心云 IT 基礎設施提供商。我們主要感興趣的領(lǐng)域包括云、人工智能、5G 和邊緣計算的進(jìn)步。特殊的是,我們?yōu)榘ㄈ斯ぶ悄茉趦鹊膹V泛應用生產(chǎn)高質(zhì)量的服務(wù)器。


在最新一輪的MLPerf Inference v4.0測試中,Wiwynn提交了邊緣和數據中心兩個(gè)類(lèi)別的ES200G2基準測試結果。Wiwynn ES200G2是一款2U服務(wù)器,專(zhuān)為滿(mǎn)足電信使用的各種需求而定制,包括邊緣應用、用于5G服務(wù)管理的推理主機和數據中心。


在邊緣類(lèi)別中,我們對配備兩個(gè) NVIDIA L40S GPU 的 ES200G2 進(jìn)行了基準測試,適用于圖像識別或其他 AI 應用等邊緣應用。在數據中心類(lèi)別中,我們對配備英特爾第五代至強處理器的ES200G2進(jìn)行了基準測試,該處理器可以組成服務(wù)器池來(lái)執行各種任務(wù)。這兩項結果都表明該平臺能夠運行流行的人工智能框架并取得良好的性能。


Wiwynn的企業(yè)使命是“提供從邊緣到云的最佳 TCO、工作負載和能源優(yōu)化 IT 解決方案”。Wiwynn將繼續朝著(zhù)這個(gè)目標努力,并參與社區活動(dòng)。我們對創(chuàng )新和卓越的承諾體現在我們參與 MLPerf Inference v4.0 等行業(yè)基準測試中,我們努力展示我們產(chǎn)品的功能并為該領(lǐng)域的進(jìn)步做出貢獻。


來(lái)源:半導體行業(yè)觀(guān)察


--End--


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 英偉達

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>