AMD將構建全球最大AI訓練集群,集成120萬(wàn)片GPU
6月26日消息,據The Next Platform報道,近日AMD執行副總裁兼數據中心解決方案集團總經(jīng)理Forrest Norrod在接受采訪(fǎng)時(shí)表示,AMD將助力構建全球最大的單體人工智能(AI)訓練集群,將集成高達120萬(wàn)片的GPU。
120萬(wàn)片GPU 是一個(gè)非常驚人的數字,要知道目前全球最強的超級計算機Frontier 所配備的 GPU 數量才只有37888片,這也意味著(zhù)AMD所支持的AI訓練集群的GPU規模將達到Frontier的30多倍。不過(guò),Forrest Norrod沒(méi)有透露哪個(gè)組織正在考慮構建這種規模的AI系統,但確實(shí)提到“非常清醒的人”正在考慮在A(yíng)I訓練集群上花費數百億到數千億美元。
目前的AI訓練集群通常由幾千個(gè) GPU 構建而成,這些 GPU 通過(guò)跨多個(gè)服務(wù)器機架或更少的高速互連連接。如果要創(chuàng )建一個(gè)擁有高達 120 萬(wàn)個(gè) GPU 的單體 AI 集群,意味著(zhù)將會(huì )面臨極為復雜的高速互連網(wǎng)絡(luò ),并且還會(huì )有延遲、功耗、硬件故障等諸多的問(wèn)題,這似乎是難以實(shí)現的。
比如,AI工作負載對延遲非常敏感,尤其是尾部延遲和異常值,其中某些數據傳輸比其他數據傳輸花費的時(shí)間要長(cháng)得多,并且會(huì )中斷工作負載。此外,當今的超級計算機也會(huì )面臨每隔幾個(gè)小時(shí)就會(huì )發(fā)生的 GPU 或其他硬件故障。當擴展到當今最大的超級計算機集群的 30 倍時(shí)。更為關(guān)鍵的是,如此龐大的AI訓練集群,將會(huì )產(chǎn)生極為龐大的能耗,不僅穩定的供電將會(huì )是一個(gè)大難題,而且配套的散熱解決方案也面臨巨大挑戰。
編輯:芯智訊-浪客劍
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。