悄然崛起的英偉達新對手
英偉達都有哪些對手?
首選當然是AMD和英特爾,前者本身就有AI加速卡的業(yè)務(wù),集CPU和GPU設計能力與一身,而后者呢,作為x86架構的奠基人,如今也涉足AI加速卡領(lǐng)域,可以見(jiàn)到它們所推出的產(chǎn)品不僅在參數上對標英偉達,還在定位與售價(jià)等方面發(fā)動(dòng)了一輪又一輪的攻勢。
而英偉達的客戶(hù)與博通和Marvell組成統一戰線(xiàn)后,也成了它的對手,不斷推陳出新的自研定制芯片,開(kāi)始取代傳統的通用AI加速卡,讓英偉達感受到了另一種壓力。
而在網(wǎng)絡(luò )領(lǐng)域,英偉達也迎來(lái)了自己的對手。
01.英偉達獨占AI網(wǎng)絡(luò )
進(jìn)入21世紀以來(lái),隨著(zhù)云計算、大數據的日益普及,數據中心得到了快速發(fā)展。而InfiniBand在其中發(fā)揮了很大的作用,尤其是從2023年開(kāi)始,以ChatGPT為代表的大型AI模型依賴(lài)于InfiniBand,讓這一網(wǎng)絡(luò )技術(shù)的關(guān)注度進(jìn)一步提升。
眾所周知,現代數字計算機自誕生以來(lái)就一直采用馮·諾依曼體系結構,該體系結構中有CPU(算術(shù)邏輯單元和控制單元)、內存(RAM、硬盤(pán))和I/O(輸入/輸出)設備。20世紀90年代初,為了支持越來(lái)越多的外部設備,Intel率先在標準PC架構中引入了外圍組件互連(PCI)總線(xiàn)設計。
隨后,互聯(lián)網(wǎng)進(jìn)入快速發(fā)展階段,在線(xiàn)業(yè)務(wù)和用戶(hù)規模的不斷增長(cháng)對IT系統容量提出了巨大挑戰。在摩爾定律的支持下,CPU、內存、硬盤(pán)等部件都在飛速進(jìn)步,而PCI總線(xiàn)的更新?lián)Q代速度卻比較慢,大大限制了I/O性能,成為了整個(gè)系統的瓶頸。
為了解決這個(gè)問(wèn)題,Intel、微軟和SUN牽頭制定了“下一代I/O(NGIO)”技術(shù)標準,而IBM、康柏和惠普則牽頭制定了“未來(lái)I/O(FIO)”,并于1998年聯(lián)合制定了PCI-X標準。
1999 年,FIO開(kāi)發(fā)者論壇和 NGIO 論壇合并成立了InfiniBand貿易協(xié)會(huì ) (IBTA)。很快,在2000年,InfiniBand架構規范1.0版本正式發(fā)布。InfiniBand誕生的目的就是為了取代PCI總線(xiàn),它引入了RDMA協(xié)議,提供更低的延遲、更高的帶寬、更高的可靠性,從而實(shí)現更強大的I/O性能。
同樣在1999年5月,幾位從英特爾和伽利略科技公司出走的員工在以色列成立了一家叫Mellanox的芯片公司, Mellanox成立后加入了NGIO,后來(lái)NGIO與FIO 合并,Mellanox也加入了InfiniBand陣營(yíng),并于2001年推出了第一款I(lǐng)nfiniBand產(chǎn)品。
而隨著(zhù)英特爾轉向PCI Express(PCIe),以及微軟退出InfiniBand,該網(wǎng)絡(luò )技術(shù)開(kāi)始轉向計算機集群互聯(lián)的應用領(lǐng)域,而新成立的Mellanox開(kāi)始走上舞臺,逐漸成為InfiniBand發(fā)展過(guò)程中的中堅力量。
InfiniBand雖然同時(shí)被英特爾和微軟放棄,但它在新的領(lǐng)域中找到了增長(cháng)點(diǎn)。2012年以后,隨著(zhù)高性能計算(HPC)需求的不斷增長(cháng),InfiniBand技術(shù)不斷取得長(cháng)足進(jìn)步,市場(chǎng)份額不斷提升。2015年,InfiniBand技術(shù)在TOP500榜單中的份額首次突破50%,達到51.4%(257個(gè)系統)。這標志著(zhù)InfiniBand技術(shù)首次成功挑戰以太網(wǎng)技術(shù),成為超級計算機首選的內部互連技術(shù)。
而Mellanox也在不斷成長(cháng):2010年,Mellanox與Voltaire合并,Mellanox和QLogic成為InfiniBand的主要供應商;2013年,Mellanox進(jìn)一步進(jìn)軍網(wǎng)絡(luò )領(lǐng)域,收購硅光技術(shù)公司Kotura和并行光互連芯片制造商IPtronics,進(jìn)一步鞏固其行業(yè)地位;到2015年,Mellanox已占據全球InfiniBand市場(chǎng)80%的份額。業(yè)務(wù)范圍從芯片擴展到網(wǎng)卡、交換機/網(wǎng)關(guān)、遠程通信系統、線(xiàn)纜和模塊,成為世界級網(wǎng)絡(luò )供應商。
隨著(zhù)AI的持續發(fā)展,InfiniBand的價(jià)值也日益顯現,Mellanox也因其在該技術(shù)上近乎壟斷的地位而成為廠(chǎng)商眼里的香餑餑。
為什么InfiniBand對于A(yíng)I如此重要?對于A(yíng)I超級計算機來(lái)說(shuō),我們可以把它看作一個(gè)由許多圖形處理單元(GPUs)組成的集群,這些單元進(jìn)行大量復雜的計算。此外,還有一些中央處理單元(CPUs)負責指揮計算機的操作,再加上一些DRAM芯片和NAND芯片,成本大約分配為:50-60%用于GPUs,10-15%用于CPUs和DRAM芯片,5-10%用于NAND芯片。
但上述所有的芯片需要互相連接,這可以通過(guò)InfiniBand或以太網(wǎng)電纜來(lái)實(shí)現,也就是所謂的“網(wǎng)絡(luò )”,它們占硬件成本的10-15%,而目的就是提供盡可能高的帶寬,讓數據能快速傳輸,倘若不能實(shí)現更高的帶寬,那么無(wú)論在GPUs上花費多少成本,最后都會(huì )變得毫無(wú)意義。
英偉達作為AI領(lǐng)域最早的探索者之一,很敏銳地察覺(jué)到了這一點(diǎn),同時(shí)決定將其關(guān)注點(diǎn)從游戲轉向AI。2019 年,英偉達以69億美元收購Mellanox,超過(guò)了競爭對手英特爾和微軟的出價(jià),后兩者的出價(jià)分別為60億美元和55億美元,這筆數額龐大的收購,為英偉達進(jìn)入網(wǎng)絡(luò )技術(shù)市場(chǎng)鋪平了道路。
當時(shí)英偉達的CEO黃仁勛解釋稱(chēng),收購Mellanox的原因是:“這是兩家全球領(lǐng)先的高性能計算公司的合并,我們專(zhuān)注于加速計算,而Mellanox則專(zhuān)注于互連和存儲?!?/span>
GPU和網(wǎng)絡(luò )技術(shù)捆綁銷(xiāo)售,聽(tīng)起來(lái)有點(diǎn)像強買(mǎi)強賣(mài),但令許多人都未預料到的是,由黃仁勛所打造的這一模式迅速取得了成功。截至今年1月,英偉達的年收入翻了一番多,達到609億美元,計算和網(wǎng)絡(luò )部門(mén)的銷(xiāo)售額增長(cháng)了215%,占英偉達業(yè)務(wù)的78%。雖然英偉達的GPU部分引起了大量關(guān)注,但其網(wǎng)絡(luò )業(yè)務(wù)也是成功的關(guān)鍵。在公司的最后一次財報電話(huà)會(huì )議上,黃仁勛表示,InfiniBand的收入同比增長(cháng)了5倍,意味著(zhù)其增長(cháng)速度約為整個(gè)計算和網(wǎng)絡(luò )業(yè)務(wù)的兩倍。
英偉達將自身的GPU算力Mellanox的網(wǎng)絡(luò )技術(shù)相結合,打造出了一個(gè)強大的“計算引擎”,在計算基礎設施方面,英偉達無(wú)疑占據著(zhù)領(lǐng)先優(yōu)勢。
02.英偉達的大威脅
過(guò)去,業(yè)界一直在使用英偉達配套的 InfiniBand 網(wǎng)絡(luò )解決方案來(lái)部署人工智能和機器學(xué)習技術(shù),原因很簡(jiǎn)單,它是目前最成熟的支持大規模部署的網(wǎng)絡(luò )技術(shù),但InfiniBand并非完美,一方面由于收購,它變成了英偉達的獨家產(chǎn)品,另一方面,它的成本昂貴,絕非普通企業(yè)可以輕松承擔得起的。
英偉達的CEO黃仁勛曾調侃道,InfiniBand只占集群成本的20%,而它能將人工智能訓練的性能提高20%,某種程度上已經(jīng)收回了成本,因而InfiniBand實(shí)際上是免費的。但這樣的論斷顯然是有失偏頗的,客戶(hù)必須首先拿出集群成本的20%,才能真正榨取出集群的性能,這就意味著(zhù)用120%的成本創(chuàng )造120%的性能。
相對比之下,基于以太網(wǎng)的集群通常只需要額外的10%甚至更低的成本,盡管后者在性能上往往難以與InfiniBand匹敵,但它憑著(zhù)自己的低廉價(jià)格也爭取到了一部分用戶(hù)。事實(shí)上,如今高性能網(wǎng)絡(luò )的競爭,是InfiniBand與高速以太網(wǎng)的較量,資源充足的廠(chǎng)商會(huì )更傾向于選擇InfiniBand,而注重性?xún)r(jià)比的廠(chǎng)商則可能傾向于高速以太網(wǎng)。
但這樣的情況并非一成不變,即便是那些具備雄厚財力的大企業(yè),也在尋找更廉價(jià)更合適的網(wǎng)絡(luò )方案,英偉達與InfiniBand正在不斷受到挑戰。
2023年7月,Linux基金會(huì )宣布,將監督成立一個(gè)超級以太網(wǎng)聯(lián)盟,該聯(lián)盟的創(chuàng )始成員包括AMD、Arista、Broadcom、思科、Eviden、HPE、英特爾、Meta 和微軟的支持下,超以太網(wǎng)聯(lián)盟表示將致力于改進(jìn)以太網(wǎng),以滿(mǎn)足高性能計算和人工智能系統所需的低延遲和可擴展性要求。
該聯(lián)盟創(chuàng )立的首要任務(wù)是定義和開(kāi)發(fā)他們所稱(chēng)的超以太網(wǎng)傳輸(UET)協(xié)議,這是一種新的以太網(wǎng)傳輸層協(xié)議,能更好地滿(mǎn)足人工智能和HPC工作負載的需求。
在高層次上,超以太網(wǎng)聯(lián)盟希望以外科手術(shù)的方式完善以太網(wǎng),只對實(shí)現目標所必需的部分進(jìn)行改進(jìn)和改動(dòng)。從一開(kāi)始,該聯(lián)盟就著(zhù)眼于改進(jìn)以太網(wǎng)技術(shù)的軟件層和物理層,但不改變其基本結構,以確保成本效益和互操作性。
聯(lián)盟的技術(shù)目標包括開(kāi)發(fā)規范、應用程序接口和源代碼,以定義超以太網(wǎng)通信的協(xié)議、接口和數據結構。此外,聯(lián)盟還致力于更新現有的鏈路和傳輸協(xié)議,創(chuàng )建新的遙測、信令、安全和擁塞機制,以更好地滿(mǎn)足大型人工智能和高性能計算集群的需求。同時(shí),由于人工智能和高性能計算工作負載有許多不同之處,UET 將為適當的部署提供單獨的配置文件。
得益于這個(gè)超級以太網(wǎng)聯(lián)盟,過(guò)去以太網(wǎng)運行人工智能工作負載的幾個(gè)問(wèn)題正在解決,也推動(dòng)了以太網(wǎng)在傳統HPC工作負載中的更廣泛采用,這也讓以太網(wǎng)網(wǎng)絡(luò )公司找到了反攻InfiniBand的機會(huì )。
超級以太網(wǎng)聯(lián)盟成員之一,以太網(wǎng)絡(luò )公司Arista Networks在今年2月的財報電話(huà)會(huì )議中,其首席執行官Jayshree Ullal解釋了InfiniBand和以太網(wǎng)之間的區別:“如你所知,從歷史上看,當單獨考慮InfiniBand和以太網(wǎng)時(shí)各有優(yōu)勢。傳統上,InfiniBand被認為是無(wú)損的,而以太網(wǎng)被認為有一些損失特性。然而當你實(shí)際將一個(gè)完整的GPU集群連同光學(xué)設備等一同考慮,并查看所有數據包大小上的任務(wù)完成時(shí)間一致性時(shí),數據——包括來(lái)自博通的第三方數據——顯示在現實(shí)環(huán)境中比較這些技術(shù),以太網(wǎng)的任務(wù)完成時(shí)間大約快10%。所以,你可以孤立地看待這些技術(shù),也可以在實(shí)際集群中看待它們。而在實(shí)際集群中,我們已經(jīng)看到以太網(wǎng)的改進(jìn)。請記住,這只是我們今天所知的以太網(wǎng)。一旦我們有了超級以太網(wǎng)聯(lián)盟和一些改進(jìn),比如數據包噴灑、動(dòng)態(tài)負載平衡和擁塞控制,我相信這些數字會(huì )變得更好?!?/span>
“Arista聲稱(chēng)其以太網(wǎng)在任務(wù)完成速度上比InfiniBand快約10%,這一點(diǎn)令我們感到意外,特別是考慮到InfiniBand在當前GPU集群中的深度滲透?!盝efferies分析師George Notter在會(huì )議后表示。
他指出,英偉達將GPUs與InfiniBand簡(jiǎn)單捆綁銷(xiāo)售是該技術(shù)成功的關(guān)鍵原因,換句話(huà)說(shuō),InfiniBand受歡迎的部分原因是因為它與英偉達的GPU一起銷(xiāo)售,但這現在GPU的積壓訂單減少了,使用InfiniBand的動(dòng)機可能也會(huì )減少,這對Arista以及另一家以太網(wǎng)網(wǎng)絡(luò )公司博通來(lái)說(shuō)是個(gè)好消息。
“我們在四個(gè)主要的AI以太網(wǎng)集群中取得了進(jìn)展,這些集群都是我們戰勝I(mǎi)nfiniBand的案例。在所有四個(gè)案例中,我們現在正從試驗轉向試點(diǎn),每年連接數千個(gè)GPU,”Arista首席執行官Jayshree Ullal解釋道。Arista在上季度業(yè)績(jì)表現也非常不錯,截至3月的三個(gè)月中,Arista的收入同比增長(cháng)了16%,每股收益增長(cháng)了44%,分析師預計隨著(zhù)AI基礎設施支出的增加,這一增長(cháng)將會(huì )加速。Arista約40%的業(yè)務(wù)來(lái)自微軟和Meta,這兩家公司都宣布明年將再次增加資本支出。Jefferies分析師George Notter最近還將Arista的評級從持有上調至買(mǎi)入,他表示:“現在,部署基于GPU的基礎設施(包括以太網(wǎng))的熱潮將會(huì )持久?!?/span>
Arista并不是唯一一家受益于“部署熱潮”的網(wǎng)絡(luò )公司。博通截至2月4日的三個(gè)月收入同比增長(cháng)了34%,達到120億美元,其中網(wǎng)絡(luò )收入增長(cháng)了46%,達到33億美元?!斑@主要是由于我們的兩個(gè)超大規??蛻?hù)對AI加速器的強勁需求,”博通首席執行官Hock Tan在財報電話(huà)會(huì )議上解釋道。
對網(wǎng)絡(luò )硬件的需求比博通預期的還要快,“超大規??蛻?hù)以及部署AI數據中心的大型企業(yè)的強勁需求”推動(dòng)了這一增長(cháng)。因此,博通將其網(wǎng)絡(luò )業(yè)務(wù)的全年增長(cháng)預期從30%上調至35%。整體而言,博通今年的收入預計為500億美元,比去年增長(cháng)40%。
國外媒體The Next Platform提出了一個(gè)有趣的數學(xué)問(wèn)題:Arista Networks在A(yíng)I集群互連銷(xiāo)售中每賺取7.5億美元,英偉達可能會(huì )損失15億至22.5億美元。在過(guò)去的12個(gè)月中,粗略估計英偉達在 InfiniBand 網(wǎng)絡(luò )方面的銷(xiāo)售額為64.7億美元,而數據中心的GPU計算銷(xiāo)售額為397.8億美元,在四比一的分紅率和穩定的市場(chǎng)條件下,英偉達可以保留約13億美元,而超級以太網(wǎng)聯(lián)盟可以保留17億至26億美元,如果一切保持不變,InfiniBand的銷(xiāo)售目標將達到120億美元。
該媒體指出,超級以太網(wǎng)聯(lián)盟的成員可以搶占的市場(chǎng)份額很大,但他們將通過(guò)從系統中移除收入來(lái)?yè)屨?,就像Linux對Unix所做的那樣,而不是將收入從一種技術(shù)轉換為另一種技術(shù),其中節省下來(lái)的資金將重新投入到GPU中。
03.挑戰英偉達
英偉達不止是在網(wǎng)絡(luò )領(lǐng)域受到挑戰,正如我們前文中提到的,它的最大依仗——GPU正在受到AMD、英特爾、博通等公司的圍剿,盡管它坐擁3萬(wàn)億美元市值,但依然會(huì )倍感壓力。在網(wǎng)絡(luò )市場(chǎng),Arista現在無(wú)疑還是非常弱小的一家公司,相較于英偉達InfiniBand動(dòng)輒數十億美元的營(yíng)收,短期內它還難以挑戰,但巨頭們對于A(yíng)I集群網(wǎng)絡(luò )壟斷的不滿(mǎn),讓Arista獲得快速發(fā)展的寶貴機會(huì ),假以時(shí)日,它很有可能成為英偉達新的心腹大患。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。