應對AI落地狂潮,新一代算力基礎設施正在蓄勢。作者 | ZeR0
編輯 | 漠影
當一群嗜血的互聯(lián)****資客、互聯(lián)網(wǎng)大鱷開(kāi)始爭搶類(lèi)ChatGPT應用的入場(chǎng)券時(shí),芯片玩家已悄然穩坐ChatGPT的牌桌。AI訓練芯片“一哥”英偉達被視作云計算資本支出重心轉向人工智能(AI)的最大受益者,韓國政府也在ChatGPT熱潮中加大AI芯片扶持力度。今年1月3日至今,英偉達股價(jià)已上漲49%,市值從3522億美元增至5261億美元(折合增長(cháng)了約1.19萬(wàn)億人民幣);據彭博億萬(wàn)富翁指數,英偉達CEO黃仁勛的財富同期增長(cháng)了60億美元。如此“躺賺”,難怪黃仁勛談到ChatGPT時(shí)滿(mǎn)面笑容,直夸其意義堪比“iPhone時(shí)刻”。據花旗集團預估,ChatGPT將可能促使英偉達相關(guān)產(chǎn)品一年內銷(xiāo)售額達到30億~110億美元。韓國政府亦高調進(jìn)場(chǎng),計劃拿出約6.4億美元投資研發(fā)先進(jìn)AI芯片的公司,并將在下個(gè)月發(fā)布七個(gè)采用韓國AI芯片的K-cloud項目通知。據韓媒報道,當前三星和互聯(lián)網(wǎng)巨頭Naver合作開(kāi)發(fā)AI芯片的進(jìn)展尤其受關(guān)注,Naver計劃在今年上半年推出自己的對話(huà)式AI服務(wù)SearchGPT。韓國AI芯片創(chuàng )企FuriosaAI也宣布明年將推出一款“可用于運行ChatGPT的最強大芯片”,采用5nm、HBM3技術(shù),帶寬是前代AI芯片的30倍。隨著(zhù)生成式AI和大模型興起,飆漲的算力需求成頭號難題,能實(shí)現高算力高能效比的Chiplet、CPO(共封裝光學(xué))概念也被帶火,漲幅居前。一場(chǎng)圍繞AI算力的爭奪戰,正日益硝煙彌漫。本文福利:ChatGPT背后的支撐為人工智能大模型,在大模型的框架下,每一代GPT模型的參數量均高速擴張,ChatGPT的快速滲透、落地應用,也將大幅提振算力需求。推薦精品報告《ChatGPT對GPU算力的需求測算與相關(guān)分析》,可在公眾號聊天欄回復關(guān)鍵詞【芯東西295】獲取。
01.訓練ChatGPT聊聊天算力需求有多大?
ChatGPT爆火后,不僅多家國內外科技大廠(chǎng)加大對生成式AI的投資,原美團“二號人物”王慧文、出門(mén)問(wèn)問(wèn)創(chuàng )始人李志飛等科技大佬也滿(mǎn)腔熱血躬身入局,要做中國的OpenAI(研發(fā)出ChatGPT和GPT-3的AI公司)。另?yè)?6氪向前搜狗CEO王小川本人求證是否回歸創(chuàng )業(yè)做AI大模型的消息,王小川承認自己在“快速籌備中”。戰場(chǎng)正變得越來(lái)越熱鬧,但回歸理性,研發(fā)AI大模型可不是誰(shuí)都能做的。此前海通證券分析師鄭宏達曾隔空吐槽,說(shuō)5000萬(wàn)美元夠干什么?大模型訓練一次就花500萬(wàn)美元,訓練10次?比照OpenAI這個(gè)模板,GPT-3大模型的單次訓練成本上百萬(wàn)美元、總訓練成本上千萬(wàn)美元。2022年,OpenAI總共花掉超過(guò)5.44億美元,但收入只有3600萬(wàn)美元,年虧損超過(guò)5億美元。沒(méi)錢(qián),沒(méi)人才,沒(méi)數據和算力,就根本拿不到參賽的入場(chǎng)券。人才是OpenAI能夠睥睨一眾競爭對手的本錢(qián)。OpenAI現有375名正式員工,其中大部分都是頂級AI研發(fā)大牛,需用高額薪酬來(lái)留住這些人才。除此之外,其最燒錢(qián)的當屬計算和數據。據美國《財富》雜志披露,OpenAI一年的計算和數據支出高達4.1645億美元,員工支出8931萬(wàn)美元,其他非特定營(yíng)業(yè)費用為3875萬(wàn)美元。ChatGPT類(lèi)產(chǎn)品的開(kāi)發(fā)成本有多高呢?據外媒報道,分析師稱(chēng)ChatGPT Beta版本使用了10000個(gè)英偉達GPU訓練模型,新一代GPT-5大模型正在25000個(gè)英偉達GPU上訓練。ChatGPT是基于大模型GPT-3.5訓練出的對話(huà)式AI模型。GPT-3.5跟前代GPT-3一樣有1750億個(gè)參數。GPT-3訓練所需算力達3650PFLOPS-days,訓練成本約140萬(wàn)美元。參數更多的大模型訓練成本則介于200萬(wàn)~1200萬(wàn)美元之間。
▲GPT-3、Gopher、MT-NLG、PaLM等大型語(yǔ)言模型的預估訓練成本(來(lái)源:國盛證券)
據大算力AI芯片-存算一體專(zhuān)家陳巍測算,標準大小的ChatGPT-175B大概需要625臺8卡DGX A100服務(wù)器進(jìn)行訓練,如果愿意等它跑1個(gè)月,200臺8卡也夠用。針對ChatGPT-175B的服務(wù)器成本(主要考慮GPU和CPU)約為3~5億元。相對來(lái)說(shuō)模型迭代成本沒(méi)那么高。越往后迭代,大模型的訓練成本可能會(huì )顯著(zhù)下降。自2020年5月GPT-3發(fā)布以來(lái),與GPT-3性能相當的模型,訓練和推理成本已經(jīng)降低了超過(guò)80%。 
▲2020年對于具有對等性能的模型,與GPT-3相比,推理和訓練成本降低的概覽(圖源:Sunyan)
而ChatGPT上線(xiàn)后的日常運營(yíng),又是一筆昂貴的算力開(kāi)銷(xiāo)。OpenAI CEO阿爾特曼曾在推特上回復馬斯克的留言,說(shuō)ChatGPT平均一次聊天成本是幾美分。
摩根士丹利分析稱(chēng)ChatGPT的一次回復可能會(huì )花掉OpenAI 2美分,大約是谷歌搜索查詢(xún)平均成本的7倍。尤其考慮到ChatGPT面向全球大眾用戶(hù),用的人越多,帶寬消耗越大,服務(wù)器成本會(huì )更高。每天至少要燒掉10萬(wàn)美元。今年1月,ChatGPT累計用戶(hù)數沖破1億大關(guān),訪(fǎng)問(wèn)量達6.72億次。根據Similarweb數據,1月27日到2月3日,ChatGPT每日訪(fǎng)客數達2500萬(wàn)。國盛證券估算,假設以這樣的穩定狀態(tài),且忽略集群配置的請求量冗余和服務(wù)質(zhì)量冗余,那么,ChatGPT需要至少30382片英偉達A100 GPU芯片同時(shí)計算,才能支撐當前ChatGPT的訪(fǎng)問(wèn)量;對應初始投入成本約為7.59億美元(折合約52億人民幣);每日電費約為4.7萬(wàn)美元。另?yè)猩掏ㄐ艤y算,ChatGPT在模型上線(xiàn)運營(yíng)階段,每?jì)|活躍用戶(hù)將帶來(lái)13.5EFLOPS的算力需求,需要6.9萬(wàn)臺DGX A100 80G服務(wù)器支撐。按每個(gè)用戶(hù)每天收到1500字回答計算,以2021年全球超算算力的總規模14EFLOPS,僅能支撐ChatGPT最多擁有1億日均上線(xiàn)人數。微軟、谷歌、百度等搜索巨頭都計劃將ChatGPT同類(lèi)技術(shù)整合到它們的搜索引擎中。據SemiAnalysis估算,將這類(lèi)技術(shù)集成到谷歌的每個(gè)搜索查詢(xún)中,需要超過(guò)51萬(wàn)臺A100 HGX服務(wù)器和總共超過(guò)410萬(wàn)個(gè)A100 GPU,服務(wù)器和網(wǎng)絡(luò )總成本的資本支出將達到1000億美元。這些支出的相當一部分,將流入英偉達的口袋。
▲中信證券認為短期內單個(gè)大模型可帶來(lái)超過(guò)2萬(wàn)個(gè)A100的銷(xiāo)售增量,對應市場(chǎng)規模超過(guò)2.13億美元(圖源:中信證券)
02.英偉達****不賠大算力AI芯片被帶飛
那么,ChatGPT究竟要用到哪些計算基礎設施?我們先來(lái)看看ChatGPT自己的回答:
可以明確的是,ChatGPT這股颶風(fēng)刮得越猛,英偉達等大算力供應商就越吃香。過(guò)去五年,大模型發(fā)展直沖萬(wàn)億參數,算力需求隨之陡增。而ChatGPT幕后的算力功臣英偉達GPU,長(cháng)期獨占大多數AI訓練芯片市場(chǎng)。摩爾線(xiàn)程摩爾學(xué)院院長(cháng)李豐談道,當前幾乎所有的生成式AI算力都依賴(lài)GPU,尤其是在訓練方面。
▲近年大模型的參數規模增長(cháng)趨勢(圖源:Xavier Amatriain)
提高峰值吞吐量方面,英偉達一馬當先。2018年,英偉達CEO黃仁勛曾提出“黃氏定律”,稱(chēng)GPU的增速是五年前的25倍。自2016年首次在V100 GPU中用上張量核心至今,英偉達通過(guò)各種創(chuàng )新設計不斷抬高單芯片算力的天花板。作為全球AI計算頭部企業(yè),英偉達坐擁高度粘性的開(kāi)發(fā)者生態(tài),同時(shí)始終保持著(zhù)敏銳的前瞻性布局,例如在H100 GPU使用Transformer引擎來(lái)顯著(zhù)提升大模型訓練的速度,通過(guò)在GPU、CPU、DPU、AI、互連、網(wǎng)絡(luò )等多方面的投資布局持續拉大在數據中心的競爭優(yōu)勢。據浙商證券分析,采購一片英偉達頂級GPU成本為8萬(wàn)元,支撐ChatGPT的算力基礎設施至少需上萬(wàn)顆英偉達A100,高端芯片需求的快速增加會(huì )進(jìn)一步拉高芯片均價(jià)。 同時(shí),數據中心日益需要更加高性?xún)r(jià)比、高能效的AI芯片。據Sunyan估算,今天,用于訓練大模型的數據中心GPU,代際每美元吞吐量提高了50%,代際每瓦特吞吐量提高了80%。
▲英偉達數據中心GPU FP16/FP32吞吐量/美元(圖源:Sunyan)

▲英偉達數據中心GPU FP16/FP32吞吐量/瓦特(圖源:Sunyan)
持續的芯片設計創(chuàng )新正推動(dòng)了硬件成本和能效進(jìn)一步優(yōu)化。從基于訓練GPT-3的V100到即將上市的H100的改進(jìn),預計可將內部訓練成本從74.4萬(wàn)美元降至31.2萬(wàn)美元,降幅達到58%。
▲今天使用英偉達H100 GPU訓練GPT-3的成本(圖源:Sunyan)
再來(lái)看看ChatGPT對于是否會(huì )使用來(lái)自英偉達以外供應商的AI芯片的回復:
我們也問(wèn)了ChatGPT關(guān)于其推理用到了哪些計算基礎設施,這是ChatGPT給出的回答:
到目前為止,AI推理市場(chǎng)還是以CPU為主。但生成式AI模型的計算量對于CPU來(lái)說(shuō)可能太大,需要GPU等加速計算芯片加以分擔。總體來(lái)看,模型訓練和終端用戶(hù)流量飆增正拉動(dòng)大算力需求,GPU、ASIC、DSA、FPGA、光子計算芯片、神經(jīng)擬態(tài)芯片等各類(lèi)加速計算芯片與通用芯片CPU的組合迎來(lái)更大的市場(chǎng)。不止是海外芯片巨頭,國內AI芯片企業(yè)也感受到了ChatGPT帶來(lái)的春意。燧原科技創(chuàng )始人兼COO張亞林認為,生成式AI大模型的出現,讓國內的算力基礎設施提供商能夠更有針對性地提供與AI大模型強關(guān)聯(lián)的基礎設施,這對于國內創(chuàng )業(yè)公司在有限資源下聚焦、持續產(chǎn)品優(yōu)化迭代提供了幫助。他告訴芯東西,燧原科技最近接到了很多客戶(hù)和投資人的垂詢(xún),正全力推動(dòng)產(chǎn)品的加速落地,去年其千卡規模液冷集群已經(jīng)落地并服務(wù)戰略客戶(hù)群,能夠全面支撐國內外生成式AI大模型。在他看來(lái),相較于英偉達等國際大廠(chǎng),國內AI芯片企業(yè)的優(yōu)勢可能體現在成本、特定市場(chǎng)及場(chǎng)景深度優(yōu)化、本土化服務(wù)和支持等方面。通過(guò)與全棧大模型團隊緊密合作,國內AI芯片團隊能讓客戶(hù)問(wèn)題的解決和產(chǎn)品迭代的飛輪更加快速。考慮到全功能GPU能更好地兼顧靈活度和應用開(kāi)發(fā),李豐認為將來(lái)的生態(tài),會(huì )很長(cháng)一段時(shí)間以GPU為主,輔以其他類(lèi)型芯片的生態(tài)。
03.ChatGPT爆火后這些芯片技術(shù)迎來(lái)大風(fēng)口
除了AI芯片外,高性能存儲、Chiplet、互連技術(shù)、共封裝光學(xué)(CPO)等概念近期均乘上了ChatGPT的高速列車(chē)。1、高性能存儲芯片隨著(zhù)參數規??焖僭鲩L(cháng),大模型將增加擴展數據中心以穩定處理大量數據的需求。這將催化高性能存儲芯片發(fā)展,例如高帶寬內存(HBM)或內存內處理(PIM)的需求將因此增加。2018年推出的大模型BERT-Large擁有340M參數,僅需6.8GB內存,能輕松塞進(jìn)單個(gè)桌面級GPU。而對于像GPT-3這樣擁有1750億個(gè)參數的模型,需要高達3.5TB的內存。英偉達H100的最大高帶寬內存(HBM)容量也僅80GB,至少需要44個(gè)H100才能滿(mǎn)足GPT-3的內存要求。 據韓國《經(jīng)濟日報》報道,受ChatGPT熱潮驅動(dòng),三星電子、SK海力士?jì)纱蟠鎯π酒揞^的HBM接單量大增。三星還在去年10月與AMD合作開(kāi)發(fā)了HBM-PIM技術(shù),將存儲芯片和AI芯片結合在一起,相比傳統GPU能耗減半。2、Chiplet隨著(zhù)系統級芯片集成進(jìn)入后摩爾時(shí)代,晶圓級芯片和基于Chiplet、存算一體等創(chuàng )新思路成為持續提高算力利用率的重要途徑。其中,Chiplet作為“換道超車(chē)”的熱門(mén)技術(shù)方案備受業(yè)界關(guān)注。不同于傳統SoC設計方法,Chiplet將復雜芯片拆解成一組具有單獨功能的Chiplet單元die,通過(guò)die-to-die的方式將模塊芯片和底層基礎芯片封裝組合形成一個(gè)系統芯片,能夠實(shí)現不同工藝節點(diǎn)的芯片產(chǎn)品搭配,降低芯片設計復雜度和設計成本,實(shí)現更高性能或具備更多功能的芯片。今年2月13日,首個(gè)由中國企業(yè)和專(zhuān)家主導制訂的Chiplet技術(shù)標準《小芯片接口總線(xiàn)技術(shù)要求》正式發(fā)布實(shí)施。這是中國首個(gè)原生Chiplet技術(shù)標準,描述了小芯片接口總線(xiàn)技術(shù)的應用場(chǎng)景、體系結構、互連特性、信號管理等內容,適用于CPU、GPU、AI芯片、網(wǎng)絡(luò )處理器和網(wǎng)絡(luò )交換芯片等,對國內芯片產(chǎn)業(yè)突破先進(jìn)制程工藝限制、繞過(guò)芯片制造良率瓶頸具有積極意義。標準文件鏈接:
https://www.ccita.net/wp-content/uploads/2023/02/TCESA-1248-2023-小芯片接口總線(xiàn)技術(shù)要求.pdf3、片上互連與片間互連單芯片撐不動(dòng)后,大模型需要借助大規模分布式計算,將計算和存儲任務(wù)拆分到更多的芯片中,因此芯片與芯片之間、系統與系統之間的數據傳輸效率愈發(fā)成為掣肘硬件利用率的瓶頸。無(wú)論是英偉達、英特爾、AMD等芯片大廠(chǎng),還是Cerebras、Graphcore、SambaNova等海外AI芯片獨角獸,都采用并支持分布式計算模型,并借助更快的內部互連技術(shù)將算力擴大。當傳統基于銅互連的數據傳輸顯得捉襟見(jiàn)肘,引入光網(wǎng)絡(luò )的思路,可能有助于大幅提升芯片內、芯片間的數據傳輸效率。國內曦智科技正在做相關(guān)探索工作。(具體可參見(jiàn)《掀起數據中心算力新風(fēng)口!大規模光電集成有多硬核?》)曦智科技創(chuàng )始人兼CEO沈亦晨告訴芯東西,高能效、低延遲的互連技術(shù)已經(jīng)是潛在的技術(shù)壁壘。對此曦智科技提出使用片上光網(wǎng)絡(luò )(oNOC)代替模塊或板卡間的電互連,提高實(shí)現更高帶寬、更低延遲,從而輔助Chiplet系統提高單芯片的算力和算效,為面向未來(lái)AI加速器的多形態(tài)計算架構提供關(guān)鍵的片上互連基礎設施。4、共封裝光學(xué)(CPO)由于ChatGPT需要大流量的云服務(wù)器支持,能顯著(zhù)提高通信效率、降低功耗成本的CPO(共封裝光學(xué))概念走紅,相關(guān)概念股近期震蕩走高。
▲同花順CPO概念股2月15日漲跌幅情況
CPO通過(guò)將硅光模塊和CMOS芯片用高級封裝的形式耦合在背板PCB上,縮短了交換芯片和光引擎間的距離,為暴漲的算力需求提供了一種小尺寸、高能效、低成本的高速互連解決方案。芯東西曾在《光互連最火概念!中國原生CPO標準草案來(lái)了,決勝數據中心未來(lái)》一文中梳理CPO技術(shù)發(fā)展的關(guān)鍵階段和國內進(jìn)展。中國計算機互連技術(shù)聯(lián)盟(CCITA)秘書(shū)長(cháng)郝沁汾告訴芯東西,CPO本質(zhì)上是光模塊結構發(fā)生了變化,給國內企業(yè)帶來(lái)了重構光模塊生態(tài)鏈和供應鏈的一個(gè)機會(huì )。當前《微電子芯片光互連接口技術(shù)》標準正在過(guò)工信部的技術(shù)審定會(huì ),這是國內唯一原生的CPO標準,也是世界三大CPO之一,后續中國計算機互連技術(shù)聯(lián)盟將聯(lián)合相關(guān)企業(yè)圍繞該標準推進(jìn)聯(lián)合開(kāi)發(fā)及技術(shù)驗證。
04.結語(yǔ)
在即將到來(lái)的生成式AI驅動(dòng)搜索時(shí)代,為AI構建下一代算力基礎設施的競爭日趨激烈。從模型訓練到日常運營(yíng),ChatGPT出生至今的每個(gè)環(huán)節都離不開(kāi)幾萬(wàn)片英偉達高端GPU的支撐。但英偉達GPU并非不可替代,此前一直有傳聞,微軟正在研發(fā)自己的AI芯片。如果生成式AI走向大規模商用,為了追求更極致的算力性?xún)r(jià)比,科技巨頭將有足夠的動(dòng)力來(lái)設計專(zhuān)用芯片。除此之外,ChatGPT背后的AI公司OpenAI正在研發(fā)開(kāi)源GPU編程語(yǔ)言Triton,希望打造一種比英偉達CUDA等特定供應商庫更好用的軟件,這可能會(huì )影響英偉達CUDA在開(kāi)發(fā)者圈的需求。前路尚且充滿(mǎn)未知,但許多計算芯片、存儲芯片、網(wǎng)絡(luò )基礎設施供應商們已經(jīng)嚴陣以待,準備好為新一輪AI狂潮蓄勢。本文福利:ChatGPT背后的支撐為人工智能大模型,在大模型的框架下,每一代GPT模型的參數量均高速擴張,ChatGPT的快速滲透、落地應用,也將大幅提振算力需求。推薦精品報告《ChatGPT對GPU算力的需求測算與相關(guān)分析》,可在公眾號聊天欄回復關(guān)鍵詞【芯東西295】獲取。