<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 誰(shuí)能卡住英偉達的脖子?

誰(shuí)能卡住英偉達的脖子?

發(fā)布人:晴朗雨 時(shí)間:2023-06-30 來(lái)源:工程師 發(fā)布文章

生成式AI的風(fēng)口下,一些行業(yè)正在“悶聲發(fā)大財”。

從今年2月開(kāi)始,中國臺灣廠(chǎng)商AVC和雙鴻(AURAS)股價(jià)一路飆升,在端午假期前的最后一個(gè)交易日,兩家公司的股價(jià)較4個(gè)月前均實(shí)現翻倍,分別收報249.5新臺幣(約合58.1元人民幣)及292.5新臺幣(約合68.1人民幣)。

如果對照芯片巨頭英偉達(NVEDIA)近期股價(jià)****,會(huì )發(fā)現三者之間存在著(zhù)驚人的一致性——這家芯片巨頭公司同樣在這4個(gè)月內時(shí)間實(shí)現了股價(jià)翻倍。

這顯然不是巧合。

實(shí)際上,上述兩家位于中國臺灣地區的公司,或多或少與英偉達有關(guān),確切地說(shuō)是與生成式AI相關(guān)。AVC是全球最大散熱模組廠(chǎng)商,也是英偉達AI服務(wù)器系統DGX H100目前的風(fēng)冷散熱系統供應商,雙鴻則是Supermicro(超微電腦)服務(wù)器散熱系統的供應商。

散熱,這個(gè)過(guò)去不被人們重點(diǎn)關(guān)注的產(chǎn)業(yè),正由于A(yíng)I帶來(lái)的數據量和計算量的爆發(fā)增長(cháng)逐漸從幕后走向臺前,多位從業(yè)人士向虎嗅表達了這樣一個(gè)觀(guān)點(diǎn):“今明兩年,AI行業(yè)中可能會(huì )出現算力被散熱‘卡脖子’的情況?!?/p>

6月15日,在A(yíng)MD發(fā)布APU(加速處理器)MI 300系列后,AMD股價(jià)由于受到“缺少大客戶(hù)”的質(zhì)疑下跌3.6%,但就在同一日,AVC與雙鴻的股價(jià)卻因AI芯片出現新玩家的利好應聲上漲5.8%和3.6%。

作為一個(gè)與計算機科學(xué)共同成長(cháng)起來(lái)的產(chǎn)業(yè),散熱模組廠(chǎng)商們經(jīng)歷了多次電子信息革命,但當下AI的爆發(fā),似乎才真正讓這個(gè)行業(yè)真實(shí)現了“翻身”。

AI的盡頭是散熱?

當電流通過(guò)電阻時(shí),所消耗的電能會(huì )全部轉化為熱能,這種現象被稱(chēng)為電流的熱效應,自計算機誕生以來(lái),從業(yè)者們用盡辦法將電子器件的溫度控制在合理的范圍內。

當然,早期的計算機功耗較低,而且整機體積較大,因此不需要單獨設計系統級的散熱解決方案,通常做法就是在計算機背部放置個(gè)簡(jiǎn)易的風(fēng)扇,以將熱流導出。

1989年,英特爾發(fā)布了80486處理器,人類(lèi)第一次實(shí)現了在微處理器中集成百萬(wàn)級晶體管,這枚芯片的功耗也水漲船高,在芯片出廠(chǎng)時(shí),英特爾為其配備了一組鋁制的散熱片,再配合機箱上的風(fēng)扇完成整體散熱。

以今天的視角來(lái)看,這種方案還是很簡(jiǎn)陋,但它勾勒出了散熱設計最底層的原理:先導熱,再散熱。簡(jiǎn)單地來(lái)說(shuō),導熱就是將熱量在介質(zhì)中傳送,散熱就是讓熱量盡可能快地從介質(zhì)向外界散發(fā)。

傳統的服務(wù)器散熱方案與計算機散熱原理大致相同,區別在于服務(wù)器所使用的算力芯片由于能耗較高,往往將芯片級散熱系統作為重點(diǎn),通常來(lái)說(shuō)就是將芯片熱量通過(guò)熱管、均熱片等傳導到多褶結構的散熱鰭片上,再通過(guò)風(fēng)扇進(jìn)行主動(dòng)散熱。

傳統服務(wù)器散熱器,與臺式機基本一致。圖片來(lái)源:中關(guān)村在線(xiàn)

不過(guò),這種風(fēng)冷式散熱方案在當前AI服務(wù)器上的表現已經(jīng)明顯力不從心。

原因在于高性能AI芯片的功耗在隨著(zhù)算力同步大幅提升。10年前市面上能買(mǎi)到的最頂級的數據中心GPU是英偉達K40,其熱設計功耗(TDP)為235W,2020年英偉達發(fā)布A100時(shí),熱設計功耗接近400W,到了最新的H100芯片,熱設計功耗直接飆升到700W。

國內散熱技術(shù)廠(chǎng)商廣州力及熱管理科技(NeoGene Tech)創(chuàng )始人陳振賢向虎嗅表示,到了明年,單顆高性能AI芯片的熱設計功耗將會(huì )突破1000W。

那么風(fēng)冷式散熱對應的散熱極限是多少?國金證券研究所的一份報告指出,服務(wù)器2U空間下,250W大約是風(fēng)冷的極限,4U以上空間風(fēng)冷可以解到400W-600W。

這里需要普及下“U”的概念,這是美國電子工業(yè)協(xié)會(huì )制訂的標準化尺寸,1U服務(wù)器的寬度為48.26厘米(19英寸),高度為4.445厘米(1.75英寸)。通常情況下,標準服務(wù)器機柜的高度為42U,但這并不意味可以容納42枚1U服務(wù)器,因為過(guò)大的密度會(huì )增加散熱負擔。

而如果使用英偉達H100芯片的話(huà),在使用風(fēng)冷散熱模組方案的情況下,就需要用到4U的機柜。

因此,為了提高單一機柜的功率密度,數據中心近些年開(kāi)始普遍使用液冷方案。其大致可以分為兩種技術(shù)路徑:冷板式(Cold Plate)與浸沒(méi)式(Immersion),前者是通過(guò)冷板將發(fā)熱器件的熱量間接傳遞給封閉在循環(huán)管路中的冷卻液體,后者則直接將發(fā)熱器件以及電路板整體直接置于液體中。與空氣介質(zhì)相比,液體的導熱率更高、比熱容更大、吸熱能力也更強。

1U 2x雙路節點(diǎn)服務(wù)器的冷板式散熱方案,圖片來(lái)源:企業(yè)存儲技術(shù)

另外在運營(yíng)成本上,液冷散熱也有較大的優(yōu)勢。傳統風(fēng)冷散熱將服務(wù)器芯片熱量吹到數據中心機房?jì)?,這要求機房空調溫度必須大幅降低,一位業(yè)內人士向虎嗅透露,臺積電的數據中心溫度常年維持在零度左右。而液冷散熱模組的設備雖然較為昂貴,但大多屬于一次性成本,后續的能耗成本可以大幅降低。

但這并不意味著(zhù)目前液冷散熱技術(shù)就是一種萬(wàn)全之策,陳振賢指出,在現有要求降低PUE(指數據中心消耗的所有能源與IT負載消耗的能源的比值)的限制下,既有的冷板式及浸沒(méi)式液冷技術(shù)也都紛紛面臨著(zhù)解熱極限的問(wèn)題。

中科創(chuàng )星董事總經(jīng)理盧小保也向虎嗅表示,目前無(wú)論是風(fēng)冷還是液冷散熱方案,都進(jìn)入明顯的發(fā)展瓶頸期,未來(lái)熱管理相關(guān)技術(shù)可能會(huì )成為AI芯片性能釋放的決定性限制因素。

破局點(diǎn)在哪里?

盡管業(yè)內目前還沒(méi)有出現公認的“最佳解決方案”,但市場(chǎng)對于A(yíng)I服務(wù)器的需求不會(huì )因此陷入停滯。

第三方研究機構TrendForce發(fā)布的預測指出,2023年AI服務(wù)器(包含GPU、FPGA、ASIC等主芯片)出貨量將接近120萬(wàn)臺,同比去年增長(cháng)38.4%,而AI芯片今年出貨量將增長(cháng)46%。

有業(yè)內人士向虎嗅表示,在今年的AI服務(wù)器市場(chǎng)中,英偉達A100與A800的出貨量將可能會(huì )占據80%,而隨著(zhù)下半年數據中心陸續導入熱設計功耗高達700W的H100芯片后,行業(yè)內既有的散熱技術(shù)可能都需要進(jìn)行一次“推倒重建”。

盧小保認為,傳統的風(fēng)冷式散熱方案并不是完全沒(méi)有開(kāi)發(fā)空間,但前提是導熱器件必須進(jìn)行升級換代,比如引入環(huán)路熱管技術(shù)。

目前芯片級風(fēng)冷散熱模組中,導熱器件主要以熱管為主,它的主體是一根封閉、中空的金屬管,內部有少量工作介質(zhì)(主要是純水)的毛細結構,運行時(shí)依靠介質(zhì)蒸發(fā)吸收芯片熱量,再由風(fēng)扇將熱量吹走。

熱管工作原理,圖片來(lái)源:antpedia

而環(huán)路熱管在保留上述特性的同時(shí),導熱能力增加幾倍,而且導熱距離更大,可以傳遞到一米以外甚至理論上可以傳導到十幾米以外,這是該技術(shù)在衛星上已經(jīng)實(shí)現的效果。

“如果環(huán)路熱管能做到數米遠,就意味著(zhù)可以直接將服務(wù)器芯片的熱量導出到數據中心外部,連機房溫度的問(wèn)題都解決了”,盧小保指出。

不過(guò)作為一種航天工程的衍生技術(shù),要在地面環(huán)境下落地應用,技術(shù)難度極高,雖然學(xué)術(shù)界和工業(yè)界都有很多團隊在從事這項技術(shù)的研發(fā),但真正具備落地商用能力的極少。

同樣,液冷散熱方案也具備升級迭代的潛力。比如結合將冷板與浸沒(méi)式散熱的技術(shù)特點(diǎn)相結合,在傳統的1U或2U機柜槽中接入冷板,再接入浸沒(méi)散熱用的單向冷卻液,以實(shí)現雙重冷卻循環(huán)。

據外媒Electronics Weekly報道,前不久美國能源部(DOE)立項了一個(gè)名為COOLERCHIPS的研究計劃,?助英偉達5百萬(wàn)美元開(kāi)發(fā)此項混合液冷技術(shù),利用兩相冷卻液作為冷板的內循環(huán),非導電冷卻液體則是被直接注入服務(wù)器中做循環(huán)。

陳振賢表示,NeoGene Tech亦自主研發(fā)了一種更先進(jìn)的具有三重液冷循環(huán)之服務(wù)器裝置技術(shù),將具備更高功率芯片的散熱及散熱能力,而且無(wú)需價(jià)格昂貴的兩相冷卻液作為循環(huán),在運營(yíng)成本上將更優(yōu)。

此外,NeoGene Tech還基于冷板式液冷技術(shù)開(kāi)發(fā)了一種被稱(chēng)為牛勁冷泵(NeoGene Liquid Cooler)液冷散熱器產(chǎn)品,整體高度已經(jīng)壓縮至24.5mm,可以滿(mǎn)足數據中心1U服務(wù)器機柜的超高密度布建需求。其最大特點(diǎn)是可通過(guò)內部三維蒸氣腔的功能設計,根據芯片功率及功率密度做出解熱及散熱的功能調整。

陳振賢指出,1U的牛勁冷泵液冷散熱器已經(jīng)可以服務(wù)TDP超過(guò)1000W的高算力芯片。

1U規格的牛勁冷泵液冷散熱產(chǎn)品,圖片來(lái)源:NeoGene Tech

以上提到的技術(shù)方案,都是基于過(guò)去散熱模組的迭代,那么是否存在一種技術(shù),可以直接在芯片上做文章?

在今年3月,NeoGene Tech曾公開(kāi)了一個(gè)針對高功率芯片封裝的散熱方案:直接將裸芯片和牛勁冷泵液冷循環(huán)系統封裝在一起工作。

陳振賢向虎嗅表示,“在這個(gè)技術(shù)路徑下,散熱模組不再是芯片外部的獨立器件,它本身就是IC元件的一部分,可達到即插即用(Plug&Play)的目的”。

這項散熱封裝技術(shù)若再搭配具有三重液冷循環(huán)之服務(wù)器裝置技術(shù),能夠為數據中心省去所有的二級、三級散熱系統,只需將自我浸沒(méi)式服務(wù)器插入機柜內, 再接入水管及非導電冷卻液管就可以直接使用。當然,該方案對先進(jìn)封裝工藝有一定的要求。

另一種直接在芯片上做散熱的技術(shù),也與封裝工藝緊密結合,那就是Chiplet。

簡(jiǎn)單地來(lái)說(shuō),就是將一個(gè)單顆SoC芯片的功能拆分成眾多小芯片,然后運用先進(jìn)封裝技術(shù)重組成一個(gè)龐大復雜的系統。從芯片散熱的角度來(lái)說(shuō),Chiplet不會(huì )使芯片整體功率降低,但在拆分后的表面積會(huì )增加,也就是說(shuō)同等熱設計功率下,單位面積內熱流強度會(huì )降低。

從這里也可以看出一個(gè)趨勢,那就是在A(yíng)I芯片算力與能耗大幅提升的背景下,芯片散熱問(wèn)題,或者說(shuō)熱管理問(wèn)題,已經(jīng)不再是一個(gè)獨立的學(xué)科,而是更加趨近于系統性工程,未來(lái)AI芯片的天花板,或許真的取決于散熱技術(shù)的發(fā)展水平。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 英偉達 AI

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>