<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 大模型時(shí)代的芯片機遇

大模型時(shí)代的芯片機遇

發(fā)布人:芯東西 時(shí)間:2024-04-29 來(lái)源:工程師 發(fā)布文章

圖片


大模型時(shí)代,AI芯片迎來(lái)了真正商業(yè)化的機會(huì )。作者 |  季宇本文來(lái)自行云集成電路創(chuàng )始人季宇,更被大家熟知的江湖綽號——mackler,本文是mackler最新演講,非常精彩。以下是演講全文:關(guān)于大模型,我們聽(tīng)到的最多的就是Scaling。OpenAI通過(guò)多年對Scaling的堅持和激進(jìn)投入,把模型一步步有效推進(jìn)到千億萬(wàn)億規模,實(shí)際上證明了AGI這個(gè)非常非常難的問(wèn)題可以通過(guò)Scaling這種路徑清晰也簡(jiǎn)單地多的方式去不斷逼近。同時(shí)OpenAI也把Scale作為他們組織的核心價(jià)值觀(guān)之一來(lái)不斷逼近AGI。今天不光模型尺寸在Scale,上下文長(cháng)度也在劇烈地Scale。這種方法論雖然相比AGI這么宏大的目標而言已經(jīng)足夠簡(jiǎn)化了,但這背后是同等急劇上升的資源投入,單純的Scale并不是一個(gè)經(jīng)濟性的方案。所以我們看到Sam Altman提到7萬(wàn)億美元的瘋狂計劃,大家也經(jīng)常討論大模型商業(yè)落地的巨大成本。大模型的商業(yè)落地相比互聯(lián)網(wǎng)目前有一個(gè)非常巨大的區別,就是邊際成本仍然非常高。過(guò)去的互聯(lián)網(wǎng)業(yè)務(wù),增加一個(gè)用戶(hù)對互聯(lián)網(wǎng)廠(chǎng)商的基礎設施而言,增加的成本幾乎是可以忽略不記的。但今天大模型每增加一個(gè)用戶(hù),對基礎設施增加的成本是肉眼可見(jiàn)的增加的,目前一個(gè)月幾十美元的訂閱費用都不足以抵消背后高昂的成本。而且今天的大模型要大規模商業(yè)化,在模型質(zhì)量、上下文長(cháng)度等方面還有進(jìn)一步訴求,實(shí)際上還有可能需要進(jìn)一步增加這個(gè)邊際成本。今天一個(gè)日活千萬(wàn)的通用大模型需要一年超過(guò)100億的收入才能支撐其背后的數據中心成本,未來(lái)如果我們希望大模型產(chǎn)業(yè)真正像今天的互聯(lián)網(wǎng)產(chǎn)業(yè)一樣服務(wù)上億人,模型的質(zhì)量可能也需要進(jìn)一步上一個(gè)臺階,成本會(huì )成為很?chē)乐氐膯?wèn)題。圖片但對于芯片行業(yè)而言,只要適當拉長(cháng)時(shí)間尺度,這些都不會(huì )是問(wèn)題。芯片行業(yè)是人類(lèi)所有工業(yè)體系中Scaling技能點(diǎn)最強的。過(guò)去大半個(gè)世紀,半導體行業(yè)一直踐行的摩爾定律就是一個(gè)關(guān)于Scaling的經(jīng)濟性方案。其實(shí)NVIDIA的老黃評論Sam的7萬(wàn)億美元計劃時(shí)也提到,芯片本身也會(huì )持續演進(jìn)來(lái)不斷降低大模型Scaling所需的資源。7萬(wàn)億會(huì )在幾年內逐漸變成7千億、7百億,逐漸變成一個(gè)不是那么夸張的數字。今天很多人講大模型的上下文窗口就是新的內存,今天看起來(lái)非常寶貴的幾K到幾M的大模型上下文窗口長(cháng)度,我們精打細算把重要的信息,各種prompt填入到這有限的上下文窗口里,有點(diǎn)像上個(gè)世紀的各種經(jīng)典小游戲,用很多不可思議的方式在KB級別的內存實(shí)現今天看起來(lái)已經(jīng)非常復雜的游戲。但在不遠的未來(lái),芯片行業(yè)就可以把上下文窗口逐漸變得和今天的內存一樣非常便宜,隨便一個(gè)hello world就直接吃掉MB級別的內存,隨便一個(gè)應用就GB級別的內存占用。未來(lái)我們也一樣可以隨隨便便把一個(gè)領(lǐng)域的全部知識裝進(jìn)上下文里,讓大模型成為絕對意義上的領(lǐng)域專(zhuān)家,也可以讓大模型擁有遠超人類(lèi)一輩子能接受的全部上下文,從而引發(fā)大模型走向新的質(zhì)變。圖片最近幾年其實(shí)說(shuō)摩爾定律放緩的觀(guān)點(diǎn)很多,這也是實(shí)際情況,先進(jìn)工藝的研發(fā)投入資金也在指數級飆升,使得維持摩爾定律逐漸變得失去經(jīng)濟性。但芯片行業(yè)的Scaling不只是晶體管的微縮推動(dòng)的,NVidia的GPU過(guò)去十年靠架構繼續推動(dòng)放緩的摩爾定律持續保持非常高的增速,算力成本降低了一千倍。而今天大模型進(jìn)一步打開(kāi)了更多芯片的演進(jìn)空間,今天大模型對芯片的需求從算力轉向了內存和互聯(lián),內存系統和互聯(lián)的Scale空間更大,除了半導體工藝的演進(jìn)外,封裝工藝的發(fā)展、硅光都對內存和互聯(lián)的設計打開(kāi)了巨大的空間。大模型今天也早已經(jīng)全面走向分布式,今天不僅僅是單顆芯片的設計,也進(jìn)一步擴展到服務(wù)器、機柜、網(wǎng)絡(luò )層面,這些層面都有比原來(lái)有大得多的設計空間,未來(lái)芯片的增速不僅不會(huì )放緩,反而會(huì )比今天更快。圖片從大模型未來(lái)大規模商業(yè)化來(lái)看,大模型對芯片的主要需求實(shí)際上已經(jīng)轉向內存和互聯(lián),因為我們需要足夠多的高帶寬內存通過(guò)互聯(lián)系統連接起來(lái)形成一個(gè)巨大的高帶寬內存來(lái)支撐大模型的服務(wù)。今天我們經(jīng)常討論的售賣(mài)Token的價(jià)格,實(shí)際上Token和Token是不一樣的,一個(gè)7B模型的Token和千億萬(wàn)億模型的Token肯定不等價(jià),一個(gè)4K上下文的Token和一個(gè)2M上下文的Token也不等價(jià)。Token的質(zhì)量實(shí)際上和模型規模以及上下文窗口都是強相關(guān)的。模型權重是模型在訓練時(shí)候對整個(gè)數據集的壓縮和泛化,是對世界和常識的理解,而上下文對應的KV-Cache是對上下文的理解。而權重和KV-Cache其實(shí)也是大模型對內存最主要的需求,這部分的訪(fǎng)存速度也決定了Token生成的速度。我們可以把Token的業(yè)務(wù)質(zhì)量和這個(gè)Token對應的權重以及KV-Cache的總訪(fǎng)存量直接掛鉤。高質(zhì)量的Token生成過(guò)程中需要更大的訪(fǎng)存量,低質(zhì)量的Token生成過(guò)程中需要的訪(fǎng)存量也相應更小。而售賣(mài)Token對硬件系統而言實(shí)際上是售賣(mài)內存系統的訪(fǎng)存帶寬。一個(gè)容量足夠大的內存系統才能提供足夠高質(zhì)量的Token服務(wù),一個(gè)內存帶寬性?xún)r(jià)比足夠高的系統才能帶來(lái)更好的服務(wù)成本。物理世界中的內存介質(zhì)選擇往往要帶寬就沒(méi)有容量、要容量就沒(méi)有帶寬。當然這也沒(méi)辦法,如果存在一種內存介質(zhì)容量和帶寬都比另一種都要低,也就被淘汰了,容量和帶寬總得占一個(gè)才會(huì )被篩選出來(lái)。所以今天繼要容量大又要帶寬性?xún)r(jià)比高,往往需要通過(guò)足夠有性?xún)r(jià)比的互聯(lián)系統將大量高帶寬內存連到一起,這里面是存在非常大的設計空間的。這也是中國AI芯片行業(yè)真正實(shí)現商業(yè)化的一次巨大機會(huì ),過(guò)去十年大家都是在卷算力,算力的競爭往往不只是峰值算力指標的競爭,算力和編程模型、軟件都有很強的耦合性,算力指標對先進(jìn)工藝也有很強的依賴(lài)性。這兩點(diǎn)實(shí)際上造成了過(guò)去十年大量AI芯片在產(chǎn)品定義和供應鏈安全方面都遭遇了巨大的困難。大模型今天把芯片產(chǎn)品的競爭力拉到了內存和互聯(lián)維度,這些維度相比算力都標準化得多,對解決產(chǎn)品定義問(wèn)題提供了新的可能性,標準化的維度更貼近指標競爭,就像今天大家買(mǎi)網(wǎng)卡或者交換機時(shí)候只關(guān)注指標而不關(guān)注是哪家的產(chǎn)品,這就是標準化競爭的好處。今天AI芯片可能介于網(wǎng)卡交換機這種純標準化的競爭和過(guò)去那種純算力這種非標競爭之間,相比過(guò)去是存在更多空間來(lái)解決產(chǎn)品定義的問(wèn)題。內存和互聯(lián)對先進(jìn)工藝的依賴(lài)度相比算力也更少,而且擴大到機柜甚至集群層面,有更多競爭的可能性,今天在封裝、互聯(lián)層面有更多發(fā)揮空間,也降低了對先進(jìn)制程的依賴(lài),在供應鏈上也存在更多的選擇。圖片我們如果看當下和未來(lái)兩三年,其實(shí)大模型的商業(yè)探索也是在成本和Token質(zhì)量上相互妥協(xié),也逐漸分化成了兩派。一派是質(zhì)量?jì)?yōu)先,用高端系統打造高質(zhì)量的通用大模型,尋找超級應用來(lái)覆蓋高昂的成本。另一派是成本優(yōu)先,用足夠便宜的硬件上,提供基本夠用的Token質(zhì)量,尋找垂直場(chǎng)景的落地。從芯片未來(lái)兩三年的短期Scaling來(lái)看,也會(huì )從兩個(gè)路徑來(lái)解決這兩派在成本和質(zhì)量上的糾結。一種是高端系統的成本的大幅度下降,顯著(zhù)降低超級應用需要承擔的成本,另一種是低端設備的規格大幅提升,顯著(zhù)提升低成本設備下可以支持的Token質(zhì)量。今天很多人講7B模型已經(jīng)夠用了,或者努力讓7B或者更小的模型變得夠用,其實(shí)也是一種無(wú)奈,如果能在同樣的成本下買(mǎi)到規格大得多的芯片,跑一個(gè)百億千億模型,支持超長(cháng)上下文,商業(yè)化的空間會(huì )比今天大得多,就像曾經(jīng)的顯卡和游戲行業(yè)一樣,當足夠便宜的顯卡已經(jīng)可以流程跑4k畫(huà)質(zhì)的時(shí)候,誰(shuí)還會(huì )覺(jué)得1080p的畫(huà)質(zhì)也夠用了呢??jì)?strong style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important;">三年后,隨著(zhù)芯片行業(yè)的發(fā)展,不會(huì )再有人需要小模型,大模型長(cháng)文本的高質(zhì)量Token會(huì )變得足夠便宜。圖片往更長(cháng)遠看,大模型的成本模型對于商業(yè)形態(tài)都會(huì )產(chǎn)生巨大的變革。很多傳統互聯(lián)網(wǎng)業(yè)務(wù)具有巨大的固定成本,而邊際成本非常低,一個(gè)集中式的云往往就是最經(jīng)濟的商業(yè)形態(tài)。今天大模型實(shí)際上把信息高度壓縮到一個(gè)足夠小的系統中,甚至是單個(gè)用戶(hù)在未來(lái)可能承受的。同時(shí),今天大模型服務(wù)的邊際成本相比固定成本占比已經(jīng)非常高,短期內仍然在云端更多是因為邊際成本對于用戶(hù)來(lái)講還是太高了,并且商業(yè)模式也還未大規模爆發(fā),用戶(hù)也不會(huì )愿意為一個(gè)尚未大規模商業(yè)化的需求承擔這部分邊際成本。因此未來(lái)兩三年內仍然是云端承擔大量的邊際成本來(lái)探索商業(yè)化的可能性,芯片行業(yè)幫助降低成本加速商業(yè)化。但隨著(zhù)大模型大規模商業(yè)化爆發(fā),這種成本模型實(shí)際上會(huì )造成巨大的浪費。試想一下以后我們常用的幾十種不同的應用都獨自提供大模型服務(wù),這些邊際成本對于所有廠(chǎng)商都是巨大的,而羊毛出在羊身上,最終還是會(huì )轉嫁到消費者身上,就像今天需要付費訂閱各種大模型廠(chǎng)商。隨著(zhù)芯片行業(yè)進(jìn)一步降低成本,大模型落到端側會(huì )變成總體更加經(jīng)濟的成本模型。就像今天的游戲市場(chǎng),游戲畫(huà)質(zhì)的成本是游戲玩家自己買(mǎi)的顯卡來(lái)承擔,游戲玩家也無(wú)需為想玩的不同游戲單獨為畫(huà)質(zhì)付費,游戲廠(chǎng)商也無(wú)需承擔這部分成本。大模型也是類(lèi)似的,未來(lái)芯片的Scaling讓用戶(hù)可以在端側低成本跑極高質(zhì)量的大模型,無(wú)需為不同的云端服務(wù)承擔獨立的大模型訂閱費用,大模型的高度智能也能更容易打破不同應用之間的壁壘,還能在端側更好地協(xié)同起來(lái),實(shí)現更好的體驗。當然這和今天AI PC這一類(lèi)在端側跑低成本的小模型還是有本質(zhì)區別的,還有待于芯片行業(yè)的迭代,讓大家能在比今天更低的成本下跑起來(lái)未來(lái)的旗艦模型。我們相信大模型能隨著(zhù)芯片行業(yè)的Scaling逐漸低成本走進(jìn)千行百業(yè),也走進(jìn)大家的生活。我們也相信在大模型時(shí)代,AI芯片迎來(lái)了真正商業(yè)化的機會(huì ),可以把產(chǎn)品定義和供應鏈的問(wèn)題解決好,也在更多維度創(chuàng )造出更有競爭力的芯片產(chǎn)品。我們行云也希望在未來(lái)努力把這些都變成現實(shí)。



*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 大模型

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>