人工智能正在引領(lǐng)數據中心物理基礎設施的新時(shí)代
人工智能(AI)目前正在對數據中心行業(yè)產(chǎn)生深遠影響,這種影響可歸因于OpenAI在2022年底推出的ChatGPT,該產(chǎn)品因其對查詢(xún)提供復雜且類(lèi)似人類(lèi)的響應的卓越能力而迅速受到歡迎。因此,作為人工智能技術(shù)的一個(gè)子集,生成式人工智能成為2023年上半年行業(yè)活動(dòng)、財報和供應商生態(tài)系統討論的焦點(diǎn)。這種興奮是有道理的,因為生成式人工智能已經(jīng)引起了數十場(chǎng)討論。數十億美元的投資,預計到2027年將繼續讓數據中心資本支出提高到5000億美元以上。然而,由于訓練和部署支持生成式人工智能應用程序的大型語(yǔ)言模型(LLM)所需的計算能力顯著(zhù)擴展,因此需要對數據中心的架構進(jìn)行更改。
雖然支持此類(lèi)人工智能應用所需的硬件對許多人來(lái)說(shuō)都是新的,但一部分數據中心行業(yè)已經(jīng)部署此類(lèi)基礎設施多年。該領(lǐng)域通常被稱(chēng)為高性能計算 (HPC) 或超級計算行業(yè)。從歷史上看,這個(gè)細分市場(chǎng)主要得到政府和高等教育機構的支持,以部署一些世界上最復雜和精密的計算機系統。
生成式人工智能正在做的事情是,將人工智能應用程序和支持它們的基礎設施擴展到更廣泛的企業(yè)和服務(wù)提供商市場(chǎng)。向HPC行業(yè)學(xué)習讓我們了解基礎設施可能會(huì )是什么樣子。
圖 1:AI硬件影響
總結圖 1 所示的影響,人工智能工作負載將需要更多的計算能力和更高的網(wǎng)絡(luò )速度。這將導致更高的機架功率密度,這對數據中心物理基礎設施(DCPI)具有重大影響。對于電力基礎設施(也稱(chēng)為灰色空間),預計架構變化將受到限制。AI工作負載應該會(huì )增加對備用電源(UPS)和IT機架(機柜PDU和母線(xiàn)槽)配電的需求,但不會(huì )要求任何重大的技術(shù)變革。人工智能基礎設施將對DCPI產(chǎn)生變革性影響的地方在于數據中心的空白區域。
首先,由于A(yíng)I IT硬件的功耗較高,需要更高功率的機架式PDU。在這些額定功率下,發(fā)生潛在故障或效率低下相關(guān)造成的成本可能很高。預計這將推動(dòng)最終用戶(hù)采用智能機架PDU,并能夠遠程監控和管理功耗和環(huán)境因素。這些機架PDU的成本比基本機架PDU高出許多數量級,而最終用戶(hù)無(wú)法監控或管理其機架配電。
對于數據中心架構來(lái)說(shuō),更具變革性的是需要液體冷卻來(lái)管理下一代CPU 和GPU運行AI工作負載時(shí)產(chǎn)生的更高熱負載。液體冷卻(包括直接液體冷卻和浸沒(méi)式冷卻)在更廣泛的數據中心行業(yè)中的采用不斷增加,預計隨著(zhù)人工智能基礎設施的部署而加速。然而,考慮到采用液冷的的跑道歷史漫長(cháng),Dell’Oro預計生成式人工智能對液冷的影響在短期內將受到限制。仍然可以部署采用風(fēng)冷技術(shù)的當前一代IT基礎設施,但會(huì )犧牲硬件利用率和效率。
為了應對這一挑戰,一些最終用戶(hù)正在使用閉環(huán)空氣輔助液冷系統改造其現有設施。這種基礎設施可以是后門(mén)熱交換器(RDHx)或直接液體冷卻的一種形式,其利用液體來(lái)捕獲機架或服務(wù)器內產(chǎn)生的熱量,并在機架或服務(wù)器的后部將其排出,將其引導到熱通道中。這種設計使數據中心運營(yíng)商能夠利用液冷的一些優(yōu)勢,而無(wú)需大量投資來(lái)重新設計設施。然而,為了大規模實(shí)現人工智能硬件的預期效率,需要專(zhuān)門(mén)建造的液冷設施。預計當前對液冷的興趣將在2025年開(kāi)始在部署中體現出來(lái),預計到2027年液冷收入將接近20億美元。
將人工智能工作負載納入未來(lái)數據中心建設的計劃已經(jīng)實(shí)現。這是Dell’Oro上調數據中心物理基礎設施市場(chǎng)5年前景的主要原因,目前預計到2027年收入將以10%的復合年增長(cháng)率增長(cháng)。但是,盡管人工智能工作負載預計將為數據中心行業(yè)帶來(lái)巨大的市場(chǎng)增長(cháng),但仍有一些值得注意的因素可能會(huì )減緩這種增長(cháng)。新冠加速了數字化的步伐,掀起了新數據中心建設的浪潮。然而,隨著(zhù)需求的實(shí)現,供應鏈難以跟上,導致數據中心物理基礎設施的交付時(shí)間在高峰時(shí)超過(guò)一年?,F在,隨著(zhù)供應鏈限制的緩解,DCPI供應商正在解決積壓?jiǎn)?wèn)題,并開(kāi)始縮短交貨時(shí)間。
然而,對人工智能工作負載的需求正在形成數據中心行業(yè)的另一波增長(cháng)浪潮。這種雙倍增長(cháng)導致數據中心行業(yè)不斷增長(cháng)的能源需求與公用事業(yè)公司向所需地點(diǎn)供電的速度之間存在差異。因此,這導致數據中心服務(wù)提供商探索“自帶電源”模式作為潛在的解決方案。雖然該模型的可行性仍在確定中,但數據中心提供商渴望一種創(chuàng )新方法來(lái)支持其長(cháng)期增長(cháng)戰略,而人工智能工作負載的激增是一個(gè)核心驅動(dòng)力。
隨著(zhù)對更多DCPI的需求與可用功率的平衡,有一點(diǎn)是明確的:人工智能正在開(kāi)創(chuàng )DCPI的新時(shí)代。在這個(gè)時(shí)代,DCPI不僅將在促進(jìn)數據中心發(fā)展方面發(fā)揮關(guān)鍵作用,還將定義性能、成本并幫助實(shí)現可持續發(fā)展。這與DCPI所扮演的歷史角色截然不同,特別是與近十年前的行業(yè)相比,當時(shí)DCPI幾乎是事后才想到的。
隨著(zhù)AI增長(cháng)浪潮的迅速到來(lái),在A(yíng)I策略中滿(mǎn)足DCPI要求至關(guān)重要。如果不這樣做,可能會(huì )導致AI IT硬件無(wú)處可插。
參考文獻:
AI is Ushering in a New Era for Data Center Physical Infrastructure - Lucas Beran joined Dell’Oro Group
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。