<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 打破英偉達霸權,Meta放了個(gè)大招!

打破英偉達霸權,Meta放了個(gè)大招!

發(fā)布人:傳感器技術(shù) 時(shí)間:2023-10-01 來(lái)源:工程師 發(fā)布文章

我們從一開(kāi)始就說(shuō)過(guò),開(kāi)放計算項目( Open Compute Project)的發(fā)起者 Meta Platforms 不可能想從 Nvidia 購買(mǎi)完整的超級計算機系統,以推進(jìn)其人工智能研究并將更新的大型語(yǔ)言模型和推薦引擎投入生產(chǎn)。以 Facebook 為核心平臺的 Meta Platforms 喜歡設計和構建自己的東西,但由于缺乏兼容 OAM 的 GPU 和矩陣加速器而措手不及,他們別無(wú)選擇,只能購買(mǎi)使用InfiniBand模式互連的 N-1 代 DGX SuperPOD系統。


現在,當 Meta Platforms 展望社交網(wǎng)絡(luò )內人工智能的未來(lái)以及支撐計算引擎的互連時(shí),他們意識到,必須以令人難以置信的規模結合在一起,才能與超大規模和云構建器競爭對手競爭,于是,他們又將目光投向了以太網(wǎng)互連(Ethernet interconnects)。這就是為什么Meta Platforms 成為超以太網(wǎng)聯(lián)盟( Ultra Ethernet Consortium)的創(chuàng )始公司之一。


這個(gè)聯(lián)盟是由以太網(wǎng) ASIC 供應商和交換機制造商組成的組織,他們并不是真的想相互合作,而是在受到互聯(lián)網(wǎng)巨頭及其新的人工智能新貴競爭迫使的情況下,他們想去找到一種方法,讓以太網(wǎng)可以與InfiniBand一樣好,也能像后者一樣適用于 AI 和 HPC 網(wǎng)絡(luò ),但使其擴展到其運行所需的規模。


對于今天的Meta Platforms來(lái)說(shuō),這意味著(zhù)是大約 32,000 個(gè)計算引擎,然后是數十萬(wàn)臺設備,然后在不久的將來(lái)的某些時(shí)候將超過(guò) 100 萬(wàn)臺設備。


從當前看來(lái),擁有這個(gè)想法的企業(yè)包括了交換機 ASIC 領(lǐng)域的 Broadcom、Cisco Systems 和 Hewlett Packard Enterprise(我們認為很快還有 Marvell),云巨頭中的 Microsoft 和 Meta Platforms,以及交換機制造商中的 Cisco、HPE 和 Arista Networks。


他們正在團結在一起,面對一個(gè)共同的敵人——InfiniBand。他們的宗旨則是——敵人的敵人就是朋友。


歸根到底,這是一條很簡(jiǎn)單的數學(xué)題。



InfiniBand很好,但也貴



在 21世紀的前十年,當超大規模企業(yè)和云構建商真正開(kāi)始構建大規?;A設施時(shí),任何分布式系統的網(wǎng)絡(luò )部分(包括交換機、網(wǎng)絡(luò )接口和電纜)只占整個(gè)系統成本的不到 10%。


而當第一代 100 Gb/秒設備問(wèn)世時(shí),由于設計不正確,成本非常高,很快網(wǎng)絡(luò )成本就占到集群成本的 15% 或更多。隨著(zhù)價(jià)格實(shí)惠的 100 Gb/秒以太網(wǎng)的出現,以及現在速度達到 200 Gb/秒和 400 Gb/秒的速度,成本現在再次降至 10% 以下,但僅限于運行應用程序的前端網(wǎng)絡(luò )。


對于超大規模企業(yè)和云構建者之間的人工智能訓練和推理基礎設施,Nvidia 會(huì )簡(jiǎn)單明了地告訴您,網(wǎng)絡(luò )占集群成本的 20%。Nvidia 聯(lián)合創(chuàng )始人兼首席執行官黃仁勛解釋說(shuō):“InfiniBand 在相同帶寬下的大規模性能比以太網(wǎng)高出 20%,因此“InfiniBand 實(shí)際上是免費的?!?/p>


但事實(shí)上,它(指代InfiniBand)不是免費的。你仍然需要拿出現金,而且它占集群成本的 20%。大家都知道GPU 計算引擎的成本非常高,但與基于 CPU 的 Web 基礎設施集群的總體成本相比,這還是令人印象深刻的。人工智能系統的 InfiniBand 網(wǎng)絡(luò )的成本,從節點(diǎn)到節點(diǎn),肯定比在其他基礎設施集群上運行數據庫、存儲和應用程序的以太網(wǎng)昂貴得多。當然,我們也承認,后者的帶寬會(huì )相對較對。


雖然兩大陣型都在彰顯自己并攻擊對方,但在650group看來(lái),雖然以太網(wǎng)與 InfiniBand有很多爭論,甚至有說(shuō)法指出一種技術(shù)是如何以犧牲另一種技術(shù)為代價(jià)或消亡而取得成功的,存在,但這些爭論都是錯誤的。


“以太網(wǎng)和 InfiniBand 各有優(yōu)勢,并且在同一市場(chǎng)中蓬勃發(fā)展。他們各有優(yōu)劣勢?!?50group強調。


事實(shí)上,作為一種網(wǎng)絡(luò )互聯(lián)技術(shù),InfiniBand以其高可靠性、低時(shí)延、高帶寬等特點(diǎn)在超級計算機集群中得到廣泛應用。此外,隨著(zhù)人工智能的進(jìn)步,尤其是英偉達在GPU上的壟斷,InfiniBand成為了GPU服務(wù)器的首選網(wǎng)絡(luò )互連技術(shù)。


圖片


650group也指出,InfiniBand 有幾個(gè)優(yōu)點(diǎn)。首先,該技術(shù)已經(jīng)存在 20 年,并且主要專(zhuān)注于 HPC 網(wǎng)絡(luò );其次,它是一項從一開(kāi)始就為 HPC 和 AI 網(wǎng)絡(luò )構建的技術(shù)‘第三,人工智能可以使用低延遲和協(xié)議內置的項目,例如網(wǎng)絡(luò )內數據處理,這有助于進(jìn)一步加速人工智能。一個(gè)很好的例子是 InfiniBand 的 SHARP 網(wǎng)內計算技術(shù)將 AI 數據縮減操作(AI 訓練的關(guān)鍵要素)吞吐量提高了兩倍,這使得 InfiniBand 成為 AI 平臺性能最高的網(wǎng)絡(luò ),并成為人工智能平臺的領(lǐng)先解決方案。


以太網(wǎng)也是人工智能平臺中領(lǐng)先的外部和管理網(wǎng)絡(luò )。


自1980年9月30日推出以來(lái),以太網(wǎng)標準已成為局域網(wǎng)中使用最廣泛的通信協(xié)議。與 InfiniBand 不同,以太網(wǎng)的設計考慮了以下主要目標:信息如何在多個(gè)系統之間輕松流動(dòng)?這是一個(gè)典型的具有分布式和兼容性設計的網(wǎng)絡(luò )。傳統以太網(wǎng)主要采用TCP/IP來(lái)構建網(wǎng)絡(luò ),目前已逐漸發(fā)展為RoCE。


一般來(lái)說(shuō),以太網(wǎng)主要用于將多臺計算機或其他設備(例如打印機、掃描儀等)連接到局域網(wǎng)。它不僅可以通過(guò)光纖電纜將以太網(wǎng)連接到有線(xiàn)網(wǎng)絡(luò ),還可以通過(guò)無(wú)線(xiàn)組網(wǎng)技術(shù)實(shí)現無(wú)線(xiàn)網(wǎng)絡(luò )中的以太網(wǎng)??焖僖蕴W(wǎng)、千兆以太網(wǎng)、10 吉比特以太網(wǎng)和交換以太網(wǎng)都是以太網(wǎng)的主要類(lèi)型。


圖片


博通資深VP Ram Velaga 幾個(gè)月前在社交平臺中更是指出,以太網(wǎng)速度一直比Infiniband快至少2倍。今天,以太網(wǎng)的速度為每秒800千兆位,而Infiniband的速度為400Gbps。他表示,在 Infiniband 上以 400Gbps 的速度完成 1MB 消息傳輸需要 20 微秒,而在以太網(wǎng)上以 800Gbps 的速度完成 10 微秒。


Meta的Alexis Black Bjorlin在 OCP 2022 上更是介紹了在網(wǎng)絡(luò )中用于推薦工作負載的時(shí)間百分比。按照她的觀(guān)點(diǎn),用以太網(wǎng)取代Infiniband將使網(wǎng)絡(luò )時(shí)間減少一半。這在整個(gè)AI基礎設施上節省了10%-25%+的成本,且更可持續!


圖片


但即使如此,如前文所說(shuō),英偉達憑借在GPU的強勢關(guān)系,他們已經(jīng)在Infiniband的選擇上擁有了更多地話(huà)語(yǔ)權。于是,Ultra Ethernet Consortium(超以太聯(lián)盟,UCE)橫空出世。



超以太聯(lián)盟,卷土重來(lái)



之所以說(shuō)是卷土重來(lái),是因為這個(gè)聯(lián)盟從某種意義上來(lái)說(shuō)是為了完成以太網(wǎng)的未竟任務(wù)。


據白皮書(shū)介紹,超以太網(wǎng)聯(lián)盟的目標是創(chuàng )建一個(gè)“完整的基于以太網(wǎng)的通信堆棧架構”,該架構將像以太網(wǎng)一樣普遍且經(jīng)濟高效,同時(shí)提供超級計算互連的性能。該聯(lián)盟的創(chuàng )始成員包括文章開(kāi)頭談到的那些積極參與 HPC 和網(wǎng)絡(luò )的公司,包括英特爾、AMD、HPE、Arista、Broadcom、思科、Meta 和微軟,該項目本身由 Linux 基金會(huì )托管。


UEC 主席 J Metz 博士在接受采訪(fǎng)的時(shí)候告訴The Register,該項目的目標不是改變以太網(wǎng),而是對其進(jìn)行調整,以更好地適應 AI 和 HPC 工作負載更苛刻的特征。


“以太網(wǎng)是我們構建的基礎技術(shù),因為它是業(yè)界持久、靈活和適應性強的基本網(wǎng)絡(luò )技術(shù)的最佳范例,”他說(shuō)?!癠EC 的目標是專(zhuān)注于如何在以太網(wǎng)上最好地承載 AI 和 HPC 工作負載流量。當然,之前已經(jīng)有過(guò)一些嘗試,但沒(méi)有一個(gè)是針對高要求的 AI 和 HPC 進(jìn)行全新設計的工作負載,但沒(méi)有一個(gè)是開(kāi)放的、易于使用的并贏(yíng)得了廣泛的采用?!彼M(jìn)一步指出。


針對網(wǎng)絡(luò )堆棧的多個(gè)層,該項目工作組的任務(wù)是開(kāi)發(fā)物理層和鏈路層的“增強性能、延遲和管理的規范”,以及開(kāi)發(fā)傳輸層和軟件層的規范。


根據白皮書(shū),網(wǎng)絡(luò )對于 AI 模型的訓練變得越來(lái)越重要,而 AI 模型的規模正在不斷膨脹。有些擁有數萬(wàn)億個(gè)參數,需要在大型計算集群上進(jìn)行訓練,并且網(wǎng)絡(luò )需要盡可能高效才能保持這些集群繁忙。


雖然 AI 工作負載往往非常需要帶寬,但 HPC 還包括對延遲更加敏感的工作負載,并且需要滿(mǎn)足這兩個(gè)要求。為了滿(mǎn)足這些需求,UEC 確定了以下理想特性:靈活的delivery順序(flexible delivery order);現代擁塞控制機制(modern congestion control mechanisms);多路徑和數據包擴散(multi-pathing and packet spraying);加上更大的可擴展性和端到端遙測(greater scalability and end-to-end telemetry)。


根據白皮書(shū),舊技術(shù)使用的嚴格數據包排序會(huì )阻止無(wú)序數據直接從網(wǎng)絡(luò )傳遞到應用程序,從而限制了效率。支持放寬數據包排序要求的現代 API 對于減少“尾部延遲”(tail latencies)至關(guān)重要。


多路徑和數據包擴散涉及沿著(zhù)源和目標之間的所有可用網(wǎng)絡(luò )路徑同時(shí)發(fā)送數據包,以實(shí)現最佳性能。


如果多個(gè)發(fā)送方都針對同一節點(diǎn),則 AI 和 HPC 中的網(wǎng)絡(luò )擁塞主要是交換機和接收節點(diǎn)之間的鏈路問(wèn)題。然而,UEC 聲稱(chēng),當前管理?yè)砣乃惴ú⒉荒軡M(mǎn)足針對人工智能優(yōu)化的網(wǎng)絡(luò )的所有需求。


首先,UEC 的目標似乎是用可提供所需特性的新傳輸層協(xié)議取代融合以太網(wǎng)上的 RDMA (RoCE) 協(xié)議。這種超以太網(wǎng)傳輸將支持多路徑、packet-spraying傳輸、高效的速率控制算法,并向人工智能和高性能計算工作負載公開(kāi)一個(gè)簡(jiǎn)單的 API——或者至少這是其意圖。


HPE 對 UEC 的參與引人注目,因為它已經(jīng)擁有基于以太網(wǎng)的 HPC 互連。正如The Next Platform的作者在文章中詳細描述的那樣,Cray Slingshot 技術(shù)是以太網(wǎng)的“超集” ,同時(shí)保持與標準以太網(wǎng)框架的兼容性,并且在 HPE 最近參與的許多超級計算機項目中得到了應用,例如Frontier 百億億次系統。


HPE 高性能互連總經(jīng)理 Mike Vildibill 表示,該公司支持 UEC 的動(dòng)機是希望確保 Slingshot 在開(kāi)放的生態(tài)系統中運行?!拔覀兿M?UEC 的 NIC 能夠體驗到 Slingshot 結構的一些性能和可擴展性?xún)?yōu)勢,”他說(shuō)。Vildibil 證實(shí),HPE 未來(lái)將繼續開(kāi)發(fā) Slingshot,但他認為總會(huì )有一些第三方 NIC 或 SmartNIC 可能具有其 Slingshot NIC 上未實(shí)現的功能。


“因此,UEC 提供了一種機制來(lái)建立強大的第三方 NIC 生態(tài)系統,以確保我們能夠支持廣泛的客戶(hù)需求,同時(shí)提供 Slingshot 的一些獨特功能,”他說(shuō)。


目前,UEC 正處于開(kāi)發(fā)的早期階段,關(guān)鍵技術(shù)概念仍在確定和研究中。Metz 博士表示,第一批批準草案可能會(huì )在 2023 年底或 2024 年初準備就緒,第一批基于標準的產(chǎn)品也預計將于明年推出。



芯片廠(chǎng)商積極參與,Meta放了個(gè)大招



雖然UEC正在推進(jìn),但很多廠(chǎng)商正在通過(guò)其產(chǎn)品來(lái)打破英偉達的壟斷。


以最積極的芯片廠(chǎng)商博通為例,今年夏天,Nvidia 承諾推出 Spectrum-X 平臺,為生成型 AI 工作負載提供“無(wú)損以太網(wǎng)”。但博通的Ram Velaga 強調,這并不是新鮮事,英偉達的產(chǎn)品,也并沒(méi)有什么特別之處是博通不具備的。


他解釋說(shuō),Nvidia 使用 Spectrum-X 實(shí)際上所做的是構建一個(gè)垂直集成的以太網(wǎng)平臺,該平臺擅長(cháng)以最小化尾延遲并減少 AI 作業(yè)完成時(shí)間的方式管理?yè)砣?。但Velaga 認為,這與 Broadcom 對其Tomahawk5和Jericho3-AI交換機 ASIC所做的沒(méi)有什么不同。他還認為 Nvidia 承認以太網(wǎng)對于處理人工智能中的 GPU 流更有意義。


我們需要稍微解析一下,Nvidia 的 Spectrum-X 不是產(chǎn)品。它是硬件和軟件的集合,其中大部分我們在過(guò)去已經(jīng)介紹過(guò)。核心組件包括Nvidia的51.2Tbit/s Spectrum-4以太網(wǎng)交換機和BlueField-3數據處理單元(DPU)。


其基本思想是,只要您同時(shí)使用 Nvidia 的交換機及其 DPU,它們就會(huì )協(xié)同工作以緩解流量擁塞,并且(如果 Nvidia 可信的話(huà))完全消除數據包丟失。


雖然英偉達聲稱(chēng)這是其全新的功能單元,但 Velaga 認為“無(wú)損以太網(wǎng)”的想法只是營(yíng)銷(xiāo)?!芭c其說(shuō)它是無(wú)損的,不如說(shuō)你可以有效地管理?yè)砣?,從而擁有一個(gè)非常高效的以太網(wǎng)結構,”他說(shuō)。換句話(huà)說(shuō),與以太網(wǎng)網(wǎng)絡(luò )不同,數據包丟失是必然的,它是規則的例外。無(wú)論如何,這就是想法。


Velaga 聲稱(chēng),這種擁塞管理已經(jīng)內置于 Broadcom 最新一代的交換機 ASIC 中 - 只是它們可以與任何供應商或云服務(wù)提供商的 smartNIC 或 DPU 配合使用。Velaga 還表示,Nvidia 試圖實(shí)現的垂直整合與以太網(wǎng)是沖突的。


“以太網(wǎng)今天成功的全部原因是它是一個(gè)非常開(kāi)放的生態(tài)系統,”他說(shuō)。


作為以太網(wǎng)的另一個(gè)支持者, Meta Platforms近日也在其主辦的 Networking  Scale 2023 活動(dòng)上展示了融合以太網(wǎng)上采用 RDMA 的以太網(wǎng)(一種借鑒了 InfiniBand 的許多想法的低延遲以太網(wǎng))。


據nextplatform報道,該公司談到了如何使用以太網(wǎng)進(jìn)行中等規模的人工智能訓練和推理集群,以及其近期計劃如何擴展到具有 32,000 個(gè) GPU 共享數據的系統,并使規模比它一直用于創(chuàng )建和訓練 LLaMA 1 和 LLaMA 2 模型的最初 2,000 個(gè) GPU 集群提高了16 倍。需要強調一下,Meta Platforms 從 Nvidia 購買(mǎi)的研究超級計算機系統最多擁有 16,000 個(gè) GPU,其中大部分是 Nvidia 的“Ampere”A100 GPU,其中相對較小的份額是更新且容量更大的“Hopper”H100 模塊。


“人工智能模型每?jì)傻饺昃蜁?huì )增長(cháng) 1,000 倍,”該公司網(wǎng)絡(luò )基礎設施團隊軟件工程總監 Rajiv Krishnamurthy 解釋道?!拔覀冊?Meta 內部觀(guān)察到了這一點(diǎn),我認為根據我們在行業(yè)中觀(guān)察到的情況,這似乎是一種長(cháng)期趨勢。這個(gè)數字很難理解。因此,從物理角度來(lái)看,這會(huì )轉化為數萬(wàn)個(gè) GPU 集群大小,這意味著(zhù)它們正在生成萬(wàn)億次計算。這是由 EB 級數據存儲支持的?!?/p>


“而從網(wǎng)絡(luò )角度來(lái)看,您正在考慮操縱每秒大約太比特的數據。工作負載本身就很挑剔。由此人們了解到,典型的 AI HPC 工作負載具有非常低的延遲要求,而且從數據包的角度來(lái)看,他們無(wú)法容忍丟失?!盧ajiv Krishnamurthy 說(shuō)。


為此,Meta Platforms 希望用于 AI 訓練的生產(chǎn)集群的規模比其 2022 年 1 月購買(mǎi)的 Nvidia RSC 機器的規模擴大 2 倍,并在去年全年不斷擴大規模,達到 16,000 個(gè) GPU 的完整配置。然后,不久之后,就會(huì )討論 48,000 個(gè) GPU,然后是 64,000 個(gè) GPU,依此類(lèi)推。


在Meta看來(lái),構建一個(gè)可以進(jìn)行 LLM 訓練(目前在Meta Platforms 上使用 LLaMA 2)和推理以及 Reco 訓練和推理(在本例中為自主開(kāi)發(fā)的深度學(xué)習推薦模型或 DLRM)的系統非常困難,而且考慮到這四種工作負載的不同要求,這甚至可以說(shuō)是不可能的,正如 Meta Platforms 人工智能系統部門(mén)的研究科學(xué)家 Jongsoo Park 在這個(gè)蜘蛛圖中所示:


圖片


Park 表示,Meta Platforms 擁有 32,000 個(gè) H100,在 FP8 四分之一精度浮點(diǎn)數學(xué)生產(chǎn)中產(chǎn)生約 30% 的峰值性能,Meta Platforms 將能夠在一天內訓練具有 650 億個(gè)參數的 LLaMA2 模型。為了實(shí)現這一目標,很多事情都必須改變,其中包括將訓練令牌(token)批次增加到 2,000 以上,并在數千個(gè) GPU 上進(jìn)行擴展。全局訓練批量大小還必須在 32,000 個(gè) GPU 上保持不變,并使用他所謂的 3D 并行性(數據并行、張量并行和管道并行技術(shù)的組合)將工作分散到 GPU 上。Park 表示,由于參數和數據量變得如此之大,數據并行性正在耗盡,因此沒(méi)有辦法解決這個(gè)問(wèn)題。


圖片


為此,Meta一直在改個(gè)其系統,以滿(mǎn)足客戶(hù)需求。


在幾年前,DLRM 訓練和推理可以在單個(gè)節點(diǎn)上完成。然后,通過(guò)第一代以太網(wǎng) RoCE 集群,Meta 可以將多個(gè)節點(diǎn)集群在一起,但集群規模相當有限。為了獲得所需的規模,它必須轉向 InfiniBand 和以太網(wǎng) RoCE v2,前者存在財務(wù)問(wèn)題,后者存在一些技術(shù)問(wèn)題,但該公司到目前為止已經(jīng)解決了。



Meta Platforms 擔任網(wǎng)絡(luò )工程師Lapukhov 表示,從基本構建模塊開(kāi)始,基于 Nvidia 加速器的八路 GPU 服務(wù)器可以在節點(diǎn)內具有數十個(gè)加速器的設備之間提供 450 GB/秒的帶寬。模型并行流量在節點(diǎn)內互連上運行,在本例中為 NVLink,但也可以是 PCI-Express 交換基礎設施。從這里開(kāi)始,模型必須使用某種形式的 RDMA(InfiniBand 或以太網(wǎng) RoCE)跨數千個(gè)節點(diǎn)(具有數萬(wàn)個(gè)聚合 GPU 計算引擎)進(jìn)行數據并行擴展,并且您可以以 50 GB/秒的速度交付具有合理數量的網(wǎng)絡(luò )接口卡的節點(diǎn)之間的帶寬。


對于以太網(wǎng) AI 網(wǎng)絡(luò ),Meta Platforms 使用與數據中心規模前端網(wǎng)絡(luò )應用程序相同的 Clos 拓撲,而不是在 AI 訓練和 HPC 集群中使用 InfiniBand 的用戶(hù)普遍青睞的fat tree 拓撲。


為了達到 32,256 個(gè) GPU,該公司在一個(gè)機架中放置了兩臺服務(wù)器,每臺服務(wù)器配有 8 個(gè) Nvidia H100 GPU。就機架而言,這并不是特別密集,但它的密度并不比 Nvidia 本身對其 DGX H100 集群所做的密集。這意味著(zhù)有 2,000 個(gè)機架需要連接,如下所示:


圖片


如果仔細觀(guān)察,它實(shí)際上是 8 個(gè)集群,每個(gè)集群有 4,096 個(gè) GPU,每個(gè)集群在兩層網(wǎng)絡(luò )中交叉鏈接。


每個(gè)機架都有一對服務(wù)器,總共有 16 個(gè) GPU 和一個(gè)架頂交換機。目前尚不清楚服務(wù)器或交換機中有多少個(gè)端口,但每個(gè) GPU 最好有一個(gè)上行端口,這意味著(zhù)每臺服務(wù)器有 8 個(gè)端口。(這就是 Nvidia 對其 DGX 設計所做的事情。)整個(gè) enchilada 中總共有 2,016 個(gè) TOR。隨著(zhù)網(wǎng)絡(luò )的發(fā)展,交換機的數量相當多。


這些架頂交換機使用 18 個(gè)集群交換機(您可以稱(chēng)之為主干)交叉連接成一個(gè)集群,整個(gè)集群中有 144 個(gè)交換機。然后還有另外 18 個(gè)具有 7:1 超額訂閱錐度的聚合交換機,將 8 個(gè)子集群相互鏈接。即 2,178 個(gè)交換機互連 4,032 個(gè)節點(diǎn)。由于這些數據密集型 GPU 的帶寬需求,該比率為 1.85:1。


Lapukhov 的這張表很酷,它表明就 AI 模型而言,子集群粒度實(shí)際上約為 256 到 512 個(gè) GPU:


圖片


這顯示了支撐人工智能的集體操作如何映射到網(wǎng)絡(luò )上:


圖片


要點(diǎn)就是這樣,這并不奇怪。當您制作更大的結構以跨越更多 GPU 時(shí),您會(huì )向網(wǎng)絡(luò )添加更多層,這意味著(zhù)更多延遲,這會(huì )降低 GPU 的利用率,至少在 GPU 等待集體操作完成的某些時(shí)間在集群周?chē)鷤鞑?。但完全共享數據并行全收集操作往往?huì )發(fā)送小消息(通常為 1 MB 或更?。?,如果您能夠很好地處理小消息,則可以通過(guò)通信和計算的細粒度重疊來(lái)實(shí)現張量并行。


聽(tīng)起來(lái)好像有人需要大型 NUMA 節點(diǎn)來(lái)進(jìn)行推理和訓練。。。。這正是 NVLink 的作用和 NVSwitch 的擴展。


那么這在 Meta Platforms 數據中心中是什么樣子的呢?那么,前端數據中心結構如下所示:


圖片


我們將數據中心劃分為四個(gè)房間,每個(gè)房間都有一些聚合網(wǎng)絡(luò ),然后核心網(wǎng)絡(luò )將數據中心中心自己區域內的房間連接在一起。為了將人工智能添加到服務(wù)器機房,集群訓練交換機(CTSW)和機架訓練交換機(RTSW)與其他應用服務(wù)器添加到同一機房,并且可以與應用服務(wù)器交錯。在四個(gè)數據大廳中,Meta可以容納數以萬(wàn)計的緊密耦合的 GPU:


圖片


這是網(wǎng)絡(luò )平面的 3D 表示(如果這樣更容易可視化):


圖片


早在過(guò)去,Meta Platforms 使用 100 Gb/秒以太網(wǎng)和 RoCE v1 并取得了一些成功:


圖片


隨著(zhù)轉向以太網(wǎng) RoCE v2(延遲和數據包保護功能得到極大改善),Meta Platforms 將 8 個(gè) 200 Gb/秒的端口連接到每臺服務(wù)器,并使用 400 Gb 將這些端口與機架和集群交換機交叉耦合/秒端口。


圖片


在第二代 AI 架構中,他們已將每個(gè) GPU 的主機下行鏈路速度提升至 400 Gb/秒,并且仍在運行更高級別的網(wǎng)絡(luò )訂閱不足,無(wú)法保持比特順利傳輸。


Nextplatform的作者認為,在未來(lái)的很多年里,情況都會(huì )如此。但如果超以太網(wǎng)聯(lián)盟采用Neta的方式,以太網(wǎng)將更像 InfiniBand,并將擁有多個(gè)供應商,從而為所有超大規模提供商和云構建商提供更多選擇和更大的競爭壓力,以降低網(wǎng)絡(luò )價(jià)格。


不過(guò),不要指望它的成本會(huì )低于集群成本的 10%——只要 GPU 的成本仍然很高。但有意思的是,隨著(zhù) GPU 成本的下降,來(lái)自網(wǎng)絡(luò )的集群成本份額將會(huì )上升,從而給 InfiniBand 帶來(lái)更大的壓力。


來(lái)源:半導體行業(yè)觀(guān)察


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 英偉達霸權

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>