<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > 破解AI集群擴展中的關(guān)鍵瓶頸

破解AI集群擴展中的關(guān)鍵瓶頸

作者：是德科技產(chǎn)品營(yíng)銷(xiāo)經(jīng)理Emily Yan 時(shí)間：2025-04-16 來(lái)源：EEPW

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

本文引用地址：http://dyxdggzs.com/article/202504/469449.htm

人工智能（AI）正以前所未有的速度向前發(fā)展，整個(gè)市場(chǎng)迫切需要更加強大、更加高效的數據中心來(lái)夯實(shí)技術(shù)底座。為此，各個(gè)國家以及不同類(lèi)型的企業(yè)正在加大對人工智能基礎設施的投入。據《福布斯》報道，2025年，泛科技領(lǐng)域對人工智能的支出將超過(guò)2500億美元，其中大部分投入將用于基礎設施建設。到 2029 年，全球對包括數據中心、網(wǎng)絡(luò )和硬件在內的人工智能基礎設施的投資將達到4230億美元。

然而，人工智能技術(shù)的快速創(chuàng )新迭代也給數據中心網(wǎng)絡(luò )帶來(lái)了前所未有的壓力。例如，Meta最近發(fā)布的有關(guān)Llama 3 405B模型訓練集群的論文顯示，該模型在預訓練階段需要超過(guò)700 TB的內存和16000顆英偉達H100 GPU芯片。據Epoch AI預計，到2030年，人工智能模型所需的計算能力將是目前領(lǐng)先模型的1萬(wàn)倍。

如果企業(yè)擁有數據中心，那么部署人工智能只是時(shí)間問(wèn)題。此篇是德科技署名文章旨在探討人工智能集群擴展面臨的關(guān)鍵挑戰，同時(shí)揭示為何“網(wǎng)絡(luò )會(huì )是新的瓶頸”。

人工智能集群的崛起

所謂人工智能集群就是一個(gè)高度互聯(lián)的大型計算資源網(wǎng)絡(luò )，用于處理人工智能工作負載。

與傳統的計算集群不同，人工智能集群針對人工智能模型訓練、推理和實(shí)時(shí)分析等工作任務(wù)進(jìn)行了優(yōu)化。它們依靠數千個(gè)GPU、高速互連和低時(shí)延的網(wǎng)絡(luò )來(lái)滿(mǎn)足人工智能對密集計算和數據吞吐量的要求。

建設人工智能集群

人工智能集群的核心功能類(lèi)似于一個(gè)小型網(wǎng)絡(luò )。構建人工智能集群需要將GPU連接起來(lái)，形成一個(gè)高性能計算網(wǎng)絡(luò )，讓數據在GPU之間實(shí)現無(wú)縫傳輸。這其中強大的網(wǎng)絡(luò )連接至關(guān)重要，因為分布式訓練往往需要使用數千個(gè)GPU進(jìn)行長(cháng)時(shí)間并行計算。

人工智能集群的關(guān)鍵組成部分

如圖1所示，人工智能集群由多個(gè)重要部分組成。

AI數據中心集群.png

圖1 AI數據中心集群

● 計算節點(diǎn)如同人工智能集群的大腦，由成千上萬(wàn)個(gè)GPU組成并連接到了機架頂部的交換機。隨著(zhù)復雜性的提升，對GPU的需求也在增加。

● 以太網(wǎng)等高速互聯(lián)技術(shù)可實(shí)現計算節點(diǎn)之間的快速數據傳輸。

● 網(wǎng)絡(luò )基礎設施包括網(wǎng)絡(luò )硬件和協(xié)議，它們能夠支持在數千個(gè)GPU之間進(jìn)行長(cháng)時(shí)間的數據通信。

擴展人工智能集群

人工智能集群可進(jìn)行擴展，以應對日益增長(cháng)的人工智能工作負載和復雜性。直到近期，由于網(wǎng)絡(luò )帶寬、時(shí)延等因素的限制，人工智能集群的規模局限在約3萬(wàn)個(gè)GPU。然而，xAI Colossus超級計算機項目打破了這一局限，將所使用的GPU數量擴展到了超過(guò)10萬(wàn)顆英偉達H100 GPU芯片，網(wǎng)絡(luò )和內存技術(shù)的進(jìn)步使得這一突破成為可能。

擴展面臨的關(guān)鍵挑戰

隨著(zhù)人工智能模型的相關(guān)參數增長(cháng)到數萬(wàn)億個(gè)，人工智能集群的擴展會(huì )遇到大量來(lái)自技術(shù)和財務(wù)層面的阻礙。

網(wǎng)絡(luò )挑戰

GPU可以有效地執行并行計算。然而，當數千個(gè)甚至幾十萬(wàn)個(gè)GPU在人工智能集群中共同執行同一工作任務(wù)時(shí)，如果其中一個(gè)GPU缺乏所需的數據或遇到延遲等情況，其他GPU的工作就會(huì )停滯不前。這種長(cháng)時(shí)間的數據包延遲或網(wǎng)絡(luò )擁堵造成的數據包丟失會(huì )導致需要重新傳輸數據包，從而大幅延長(cháng)了任務(wù)完成時(shí)間（JCT），造成價(jià)值數百萬(wàn)美元的GPU閑置。

此外，人工智能工作負載產(chǎn)生的東西向流量，也就是數據中心內部計算節點(diǎn)之間的數據遷移，急劇增加，如果傳統的網(wǎng)絡(luò )基礎設施沒(méi)有針對這些負載進(jìn)行優(yōu)化，可能會(huì )出現網(wǎng)絡(luò )擁堵和延遲問(wèn)題。

互聯(lián)挑戰

隨著(zhù)人工智能集群規模的拓展，傳統的互連技術(shù)可能難以支持必要的吞吐量。為了避免瓶頸問(wèn)題，企業(yè)必須進(jìn)行升級迭代，采用更高速的互連技術(shù)，如800G甚至1.6T的解決方案。然而，要滿(mǎn)足人工智能工作負載的嚴格要求，部署和驗證此類(lèi)高速鏈路并非易事。高速串行路徑必須經(jīng)過(guò)仔細調試和測試，以確保最佳的信號完整性、較低的誤碼率和長(cháng)距可靠的前向糾錯（FEC）性能。高速串行路徑中的任何不穩定因素都會(huì )降低可靠性并減慢人工智能訓練的速度。企業(yè)需要采用高精度、高效率的測試系統，在高速互聯(lián)技術(shù)部署前對其進(jìn)行驗證。

財務(wù)挑戰

擴展人工智能集群的總成本遠遠不止于購買(mǎi)GPU的花費。企業(yè)必須將電源、冷卻、網(wǎng)絡(luò )設備和更廣泛的數據中心基礎設施等相關(guān)投入考慮在內。然而，通過(guò)采用更出色的互連技術(shù)并借助經(jīng)過(guò)優(yōu)化的網(wǎng)絡(luò )性能來(lái)加速處理人工智能工作負載，可以縮短訓練周期，并釋放資源用于執行其他任務(wù)。這也意味著(zhù)每節省一天的培訓時(shí)間，就能大幅降低成本，因此對于財務(wù)風(fēng)險和技術(shù)風(fēng)險需要給予同等的重視。

測試和驗證面臨的挑戰

優(yōu)化人工智能集群的網(wǎng)絡(luò )性能需要對網(wǎng)絡(luò )架構和GPU之間的互連技術(shù)進(jìn)行性能測試和基準測試。然而，由于硬件、架構設計和動(dòng)態(tài)工作負載特性之間的關(guān)系錯綜復雜，對這些器件和系統進(jìn)行驗證具有很大的挑戰性。主要有三個(gè)常見(jiàn)的驗證問(wèn)題需要解決。

第一，實(shí)驗室部署方面的限制

人工智能硬件成本高昂、可用的設備有限以及對專(zhuān)業(yè)網(wǎng)絡(luò )工程師的需求缺口，使得全盤(pán)復制變得不切實(shí)際。此外，實(shí)驗室環(huán)境通常在空間、電力和散熱方面受到限制，與現實(shí)世界的數據中心條件不同。

第二，對生產(chǎn)系統的影響

減少對生產(chǎn)系統的測試可能會(huì )造成破壞，并影響關(guān)鍵的人工智能操作。

第三，復雜的人工智能工作負載

人工智能工作負載和數據集的性質(zhì)多種多樣，在規模和通信模式上也有很大差異，因此很難重現問(wèn)題并執行一致性的基準測試。

人工智能將重塑數據中心的產(chǎn)業(yè)格局，因此構建面向未來(lái)的網(wǎng)絡(luò )基礎設施對于在技術(shù)和標準快速演進(jìn)的過(guò)程中保持領(lǐng)先地位至關(guān)重要。是德科技先進(jìn)的仿真解決方案可在部署前對網(wǎng)絡(luò )協(xié)議和系統運行的場(chǎng)景進(jìn)行全面驗證，進(jìn)而幫助企業(yè)獲得關(guān)鍵優(yōu)勢。是德科技致力于幫助網(wǎng)絡(luò )工程師降低人工智能工作負載的復雜性并優(yōu)化網(wǎng)絡(luò )性能，從而確保系統的可擴展性、效率，并為應對人工智能需求做好充分準備。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI集群擴展 是德科技

評論

相關(guān)推薦

是德科技發(fā)布全新采樣示波器，革新1.6T光學(xué)收發(fā)器測試

測試測量是德科技采樣示波器光學(xué)收發(fā)器測試 | 2025-04-01

破解AI集群擴展中的關(guān)鍵瓶頸

智能計算 AI集群擴展是德科技 | 2025-04-16

是德科技推出用于快速開(kāi)關(guān)功率器件測試的隔離探測技術(shù)

測試測量是德科技快速開(kāi)關(guān)功率器件隔離探測 | 2025-03-26

是德科技利用高頻汽車(chē)雷達測試解決方案推進(jìn)自動(dòng)駕駛安全

設計方案測試雷達汽車(chē) 是德科技自動(dòng)駕駛 | 2023-09-19

是德科技推出1.6T平臺和自動(dòng)化網(wǎng)絡(luò )互連性能驗證軟件

測試測量是德科技自動(dòng)化網(wǎng)絡(luò ) | 2025-04-01

是德科技：AI高速運算不受關(guān)稅影響

測試測量是德科技 AI高速關(guān)稅影響 | 2025-04-09

【免費試用】購買(mǎi)前，先試用！是德科技示波器軟件套件免費下載！

白柴 | 2020-09-25

新時(shí)代，新視界，是德科技引領(lǐng)軍工電子測試新趨勢

資源下載是德科技軍工電子 | 2016-06-12

是德科技推出單機多通道寬帶毫米波測量解決方案

設計方案是德科技 | 2023-09-08

是德科技攜手聯(lián)發(fā)科技實(shí)現近12Gbps的5G互聯(lián)網(wǎng)協(xié)議數據吞吐量

手機與無(wú)線(xiàn)通信是德科技聯(lián)發(fā)科技 5G互聯(lián)網(wǎng) | 2025-04-03

物聯(lián)網(wǎng)開(kāi)發(fā)者大會(huì )是德科技演講

資源下載是德科技測試 | 2016-12-13

是德科技推出用于大規模AI數據中心的系列解決方案

測試測量是德科技數據中心 | 2025-04-08

武漢某院校是德科技E8267C信號發(fā)生器維修經(jīng)驗

安泰測試設備 | 2019-11-29

是德科技推出AI數據中心構建器以驗證和優(yōu)化網(wǎng)絡(luò )架構和主機設計

測試測量是德科技數據中心構建器 | 2025-04-06

是德科技推出AI網(wǎng)絡(luò )可視性以增強網(wǎng)絡(luò )安全

測試測量是德科技 AI網(wǎng)絡(luò )可視性 | 2025-03-26

5G 全頻段MIMO 信道測量參考解決方案

資源下載是德科技 keysight 5G MIMO 測量 | 2017-01-09

安泰測試維修案例分享——武漢某院校是德科技E8267C信號發(fā)生器

設計方案安泰測試電子測試儀器如何維修是德科技信號發(fā)生器 | 2025-01-03

選型指南-是德科技HD3系列示波器

視頻選型指南，是德科技，HD3系列示波器 | 2024-09-19

5G 候選波形的設計和評測解決方案

資源下載是德科技 keysight 5G 4G LTE | 2017-01-09

（維修案例分享）是德科技E4428C信號發(fā)生器維修

123agitek | 2020-02-20

是德科技新增快速、緊湊型測試儀器，擴展射頻和微波產(chǎn)品組合

測試測量是德科技測試儀器射頻儀器微波儀器 | 2025-04-01

偏置范圍高達±24V的低噪聲示波器探頭

設計方案示波器探頭是德科技 | 2016-03-25

第五代移動(dòng)通信中信道測量的技術(shù)挑戰與參考系統

資源下載是德科技 keysight 5G MIMO 毫米波 | 2017-01-09

是德科技E4428C信號發(fā)生器維修經(jīng)驗分享

agitek維修 | 2020-04-22

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>