編輯:好困 潤【導讀】一家獨大的英偉達,把微軟和OpenAI都逼得親自下場(chǎng)造芯片了。也許AI芯片大戰才剛剛拉開(kāi)帷幕。
微軟自研AI芯片,11月上線(xiàn)!知名外媒The Information獨家爆料稱(chēng),微軟計劃在下個(gè)月舉行的年度開(kāi)發(fā)者大會(huì )上,推出首款人工智能芯片。
同時(shí),OpenAI也在招聘能夠幫助其評估和設計AI硬件的人員。
業(yè)內有一種說(shuō)法,「賣(mài)H100比向沙漠里快要渴死的人賣(mài)水還要容易」。不論是為了走出算力枯竭,更高效,低成本地開(kāi)發(fā)自己的模型,還是為了擺脫被「利潤率高達1000%」的H100盤(pán)剝。
微軟和OpenAI都在嘗試「變硬」,努力戒掉對于英偉達的GPU依賴(lài)。但是,根據業(yè)內人士爆料,英偉達對于已經(jīng)推出自己芯片的公司,比如谷歌和亞馬遜,會(huì )控制GPU的供給。所以「芯片自研」的道路,是一個(gè)風(fēng)險和收益都很高的選擇,畢竟誰(shuí)也不想未來(lái)被黃老板在GPU供給上進(jìn)一步「卡脖子」。
微軟自研AI芯片,追趕谷歌亞馬遜
與英偉達的GPU類(lèi)似,微軟的芯片也是專(zhuān)為數據中心服務(wù)器設計,可用于訓練和運行諸如ChatGPT這類(lèi)的大語(yǔ)言模型。
目前,不管是為云客戶(hù)提供先進(jìn)的LLM支持,還是為自家的生產(chǎn)力應用提供AI功能,微軟都需要依靠英偉達的GPU提供算力的加持。而這款從2019年便開(kāi)始研發(fā)的全新芯片,顯然可以極大地減輕微軟對英偉達GPU的依賴(lài)。據知情人士稱(chēng),微軟和OpenAI組成的聯(lián)合團隊,現在已經(jīng)在對其進(jìn)行測試了。
相比起早早入局的競爭對手,微軟直到2019年才開(kāi)始AI芯片的研發(fā)。也是同年,微軟宣布將向OpenAI投資10億美元,并要求他們必須使用微軟的Azure云服務(wù)器。然而,當微軟開(kāi)始與OpenAI進(jìn)行更緊密地合作時(shí)發(fā)現,依靠購買(mǎi)GPU來(lái)支持這家初創(chuàng )公司、Azure客戶(hù)以及自家產(chǎn)品的成本,實(shí)在是太高了。據知情人士透露,在開(kāi)發(fā)Athena期間,微軟為了滿(mǎn)足OpenAI的需求,已經(jīng)向英偉達訂購了至少數十萬(wàn)塊GPU。早在,今年4月,就有消息透露了這款代號為Athena的芯片的存在。
據稱(chēng),微軟希望這款代號為Athena(雅典娜)芯片,能與一直供不應求的英偉達H100 GPU相媲美。目前,亞馬遜和谷歌已將人工智能芯片作為其云業(yè)務(wù)營(yíng)銷(xiāo)戰略的重要組成部分。
其中,亞馬遜在對Anthropic的投資中規定,對方需要使用亞馬遜的AI芯片,即Trainium和Inferentia。同時(shí),谷歌云也表示,Midjourney和 Character AI等客戶(hù)使用了自研的TPU。
微軟雖然還在討論是否要向Azure云客戶(hù)提供自研芯片,但該芯片在開(kāi)發(fā)者大會(huì )上的首次亮相,可能預示著(zhù)微軟正在尋求吸引未來(lái)云客戶(hù)的興趣。可以肯定的是,微軟將借著(zhù)Athena的推出,極大縮短與另外兩家巨頭的距離——谷歌和亞馬遜早已在自家的云服務(wù)器上大規模采用了自研的芯片。此外,為了擺脫英偉達的「卡脖子」,微軟還在與AMD密切合作,開(kāi)發(fā)即將推出的人工智能芯片MI300X。不過(guò),微軟和其他云服務(wù)提供商普遍表示,自己并沒(méi)有停止從英偉達購買(mǎi)GPU的打算。但如果他們能說(shuō)服云客戶(hù)更多地使用自研芯片,那么從長(cháng)遠來(lái)看,這可以極大地節省開(kāi)支。同時(shí),也能幫助他們在與英偉達的談判中獲得更多籌碼。OpenAI:這兩家,我都不想要
對于OpenAI來(lái)說(shuō),能同時(shí)減少對微軟和英偉達芯片的依賴(lài),顯然是最好的。
據OpenAI網(wǎng)站上的幾則招聘信息顯示,公司正在招聘能夠幫助其評估和共同設計AI硬件的人員。路透社也報道,OpenAI正在計劃下場(chǎng)生產(chǎn)自己的AI芯片。
此前,CEO Sam Altman曾將獲得更多AI芯片作為公司的首要任務(wù)。一方面,OpenAI所需的GPU十分短缺,另外,運行這些硬件時(shí)產(chǎn)生的成本「令人瞠目結舌」。如果算力成本一直居高不下,長(cháng)遠來(lái)看于整個(gè)AI行業(yè)來(lái)說(shuō)可能并不是一個(gè)好消息。畢竟如果掘金的「鏟子」賣(mài)的比金子本身都貴,那么還會(huì )有人去做挖金子的人嗎?根據Stacy Rasgon的分析,ChatGPT每次查詢(xún)大約需要4美分。如果ChatGPT的查詢(xún)量增長(cháng)到谷歌搜索規模的十分之一,那么就將需要價(jià)值約481億美元的GPU,并且每年需要價(jià)值約160億美元的芯片來(lái)維持運行。目前還不清楚OpenAI是否會(huì )推進(jìn)定制芯片的計劃。據業(yè)內資深人士分析,這將是一項投資巨大的戰略舉措,其中每年的成本可能高達數億美元。而且,即使OpenAI將資源投入到這項任務(wù)中,也不能保證成功。除了完全的自研之外,還有一種選擇是像亞馬遜在2015年收購Annapurna Labs那樣,收購一家芯片公司。
據一位知情人士透露,OpenAI已經(jīng)考慮過(guò)這條路,并對潛在的收購目標進(jìn)行了盡職調查。但即使OpenAI繼續推進(jìn)定制芯片計劃(包括收購),這項工作也可能需要數年時(shí)間。在此期間,OpenAI還是將依賴(lài)于英偉達和AMD等GPU供應商。因為就算強如蘋(píng)果,在2007年收購了P.A. Semi和Intristy,到2010年推出第一款芯片A4,也經(jīng)歷了3年的時(shí)間。而OpenAI,自己本身都還是一家初創(chuàng )公司,這個(gè)過(guò)程也許走得會(huì )更加艱難。而且英偉達GPU最重要的護城河,就是它基于CUDA的軟硬件生態(tài)的積累。OpenAI不但要能設計出性能上不落后的硬件,還要在軟硬件協(xié)同方面趕超CUDA,絕對不是一件容易的事情。
但是,另一方面,OpenAI做芯片也有自己獨特的優(yōu)勢。OpenAI要做的芯片,不需要向其他巨頭推出的芯片一樣,服務(wù)于整個(gè)AI行業(yè)。他只需滿(mǎn)足自己對模型訓練的理解和需求,為自己定制化的設計一款AI芯片。這和谷歌、亞馬遜這種將自己的AI芯片放在云端提供給第三方使用的芯片會(huì )有很大的不同,因為幾乎不用考慮兼容性的問(wèn)題。這樣就能在設計層面讓芯片能更高效地執行Transformer模型和相關(guān)的軟件棧。
而且,OpenAI在模型訓練方面的領(lǐng)先優(yōu)勢和規劃,能讓它真正做到在未來(lái)把模型訓練相關(guān)的硬件問(wèn)題,用自己獨家設計的芯片來(lái)解決。不用擔心自己的芯片在「滿(mǎn)足自己需要」的性能上,相比與英偉達這樣的行業(yè)巨頭會(huì )有后發(fā)劣勢。都是成本的問(wèn)題
設計自己的AI芯片,與英偉達直接「剛正面」如此之難,為什么巨頭們還要紛紛下場(chǎng)?
最直接的原因就是,英偉達的GPU太貴了!加上云提供商在中間還要再賺一筆。這樣,包括OpenAI在內,使用英偉達GPU+云提供商的基礎模型企業(yè)成本肯定居高不下。
有國外媒體算過(guò)這樣一筆賬:現在,購買(mǎi)一個(gè)使用英偉達H100 GPU的人工智能訓練集群,成本約為10億美元,其FP16運算能力約為20 exaflops(還不包括對矩陣乘法的稀疏性支持)。而在云上租用三年,則會(huì )使成本增加2.5倍。這些成本包括了集群節點(diǎn)的網(wǎng)絡(luò )、計算和本地存儲,但不包括任何外部高容量和高性能文件系統存儲。購買(mǎi)一個(gè)基于Hopper H100的八GPU節點(diǎn)可能需要花費近30萬(wàn)美元,其中還包括InfiniBand網(wǎng)絡(luò )(網(wǎng)卡、電纜和交換機)的分攤費用。同樣的八GPU節點(diǎn),在A(yíng)WS上按需租用的價(jià)格為260萬(wàn)美元,預留三年的價(jià)格為110萬(wàn)美元,在微軟Azure和谷歌云上的價(jià)格可能也差不多。因此,如果OpenAI能夠以低于50萬(wàn)美元的單價(jià)(包括所有成本)構建系統,那么它的成本將減少一半以上,同時(shí)還能掌握自己的「算力自由」。將這些費用削減一半,在投入資源不變的情況下,OpenAI的模型規模就會(huì )擴大一倍;如果成本能夠減少四分之三,則翻四倍。在模型規模每?jì)傻饺齻€(gè)月翻倍的市場(chǎng)中,這一點(diǎn)非常重要。所以長(cháng)遠來(lái)看,也許任何一個(gè)有野心的AI大模型公司,都不得不面對的一個(gè)最基本問(wèn)題就是——如何盡可能的降低算力成本。而擺脫「金鏟子賣(mài)家」英偉達,使用自己的GPU,永遠都是最有效的方法。網(wǎng)友熱議
對于OpenAI和微軟下場(chǎng)造AI芯片的做法,一些網(wǎng)友似乎持不同的意見(jiàn),認為AI芯片是一個(gè)「陷阱」。
逼得OpenAI等模型公司造硬件,一個(gè)最大的原因是其他芯片公司完全不給力,英偉達幾乎沒(méi)有競爭。如果AI芯片是一個(gè)競爭充分的市場(chǎng),OpenAI這類(lèi)的公司就不會(huì )自己下場(chǎng)做AI芯片。
而有些想法更加激進(jìn)的網(wǎng)友認為,大語(yǔ)言模型未來(lái)將集成到芯片當中,人類(lèi)可以用自然語(yǔ)言和計算機直接對話(huà)。所以設計芯片是走到那一步的自然選擇。 來(lái)源:新智元
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。