<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 市場(chǎng)分析 > 強攻 GPU,TPU 芯片一夜躥紅

強攻 GPU,TPU 芯片一夜躥紅

作者: 時(shí)間:2024-08-20 來(lái)源:半導體產(chǎn)業(yè)縱橫 收藏

自 ChatGPT 爆火之后,AI 大模型的研發(fā)層出不窮,而在這場(chǎng)「百模大戰」激戰正酣之際,美國芯片公司英偉達卻憑借其 在大模型計算中的出色發(fā)揮賺得盆滿(mǎn)缽滿(mǎn)。

本文引用地址:http://dyxdggzs.com/article/202408/462193.htm

然而,近日蘋(píng)果的一項舉動(dòng),給英偉達的火熱稍稍降溫。

AI 模型訓練,蘋(píng)果選擇 而非

英偉達一直是 AI 算力基礎設施領(lǐng)域的領(lǐng)導者,在 AI 硬件市場(chǎng),尤其是 AI 訓練領(lǐng)域,其市場(chǎng)份額在 80% 以上,英偉達 一直是亞馬遜、微軟、Meta、OpenAI 等眾多科技巨頭在 AI 和機器學(xué)習領(lǐng)域的首選算力解決方案。

因此,英偉達也持續遭遇行業(yè)內多元挑戰,競爭對手中不乏自主研發(fā) GPU 的強者,亦有探索創(chuàng )新架構的先驅。谷歌的 也憑借其獨特優(yōu)勢,成為英偉達不容忽視的強大對手。

7 月 30 日,蘋(píng)果公司發(fā)布了一篇研究論文。在論文中,蘋(píng)果介紹了給 Apple Intelligence 提供支持的兩個(gè)模型——AFM-on-device(AFM 是蘋(píng)果基礎模型的縮寫(xiě))和 AFM-server(一個(gè)基于服務(wù)器的大語(yǔ)言模型),前者是一個(gè) 30 億參數的語(yǔ)言模型,后者則是一個(gè)基于服務(wù)器的語(yǔ)言模型。

蘋(píng)果在論文中表示,為了訓練其 AI 模型,使用了谷歌的兩種張量處理器(),這些單元被組成大型芯片集群。為了構建可在 iPhone 和其他設備上運行的 AI 模型 AFM-on-device,蘋(píng)果使用了 2048 個(gè) TPUv5p 芯片。對于其服務(wù)器 AI 模型 AFM-server,蘋(píng)果部署了 8192 個(gè) TPUv4 處理器。

蘋(píng)果放棄英偉達 GPU 轉向谷歌 TPU 的戰略選擇,在科技界投下了一枚震撼彈,當日英偉達股價(jià)應聲下跌超 7%,創(chuàng )下三個(gè)月來(lái)最大跌幅,市值蒸發(fā) 1930 億美元。

業(yè)內人士表示,蘋(píng)果的決定表明一些大型科技公司在人工智能訓練方面可能正在尋找英偉達圖形處理單元的替代品。

TPU VS GPU,誰(shuí)更適合大模型?

在討論 TPU 與 GPU 誰(shuí)更適合大模型之前,我們需要對這兩者有一個(gè)初步的了解。

TPU 與 GPU 對比

TPU 全稱(chēng) Tensor Processing Unit,是谷歌專(zhuān)門(mén)為加速機器學(xué)習工作負載而設計的專(zhuān)用芯片,它主要應用于深度學(xué)習模型的訓練和推理。值得注意的是,TPU 也屬于 ASIC 芯片的一類(lèi),而 ASIC 是一種為了某種特定的需求而專(zhuān)門(mén)定制的芯片。

GPU 大家就比較熟悉了,GPU 是最初為圖形渲染設計的處理器,后來(lái)廣泛用于并行計算和深度學(xué)習。它具有強大的并行處理能力,經(jīng)過(guò)優(yōu)化后的 GPU,也非常適合深度學(xué)習和科學(xué)計算等并行任務(wù)。

可以看到,這兩種不同的芯片在初始設計時(shí)便有著(zhù)各自不同的目標。

與傳統的 CPU 相比,GPU 的并行計算能力使其特別適合處理大規模數據集和復雜計算任務(wù),于是在 AI 大模型爆發(fā)的近幾年,GPU 一度成為 AI 訓練的算力硬件首選。

然而,隨著(zhù) AI 大模型的不斷發(fā)展,計算任務(wù)在指數級地日益龐大與復雜化,這對計算能力與計算資源提出了全新的要求,GPU 用于 AI 計算時(shí)的算力利用率較低、能耗較高的能效比瓶頸,以及英偉達 GPU 產(chǎn)品的價(jià)格高昂和供貨緊張,讓本就是為深度學(xué)習和機器學(xué)習而生的 TPU 架構受到更多的關(guān)注。GPU 在這一領(lǐng)域的霸主地位開(kāi)始面臨挑戰。

據悉,谷歌早在 2013 年就開(kāi)始在內部研發(fā)專(zhuān)用于 AI 機器學(xué)習算法的芯片,直到 2016 年這款自研的名叫 TPU 的芯片才被正式公開(kāi)。在 2016 年 3 月打敗李世石和 2017 年 5 月打敗柯杰的 AlphaGo,就是使用谷歌的 TPU 系列芯片訓練而成。

如果說(shuō) TPU 更適合用作 AI 大模型訓練,不具體說(shuō)明它的「本領(lǐng)」恐怕難以令眾人信服。

TPU 如何適合大模型訓練?

首先,TPU 具有多維度的計算單元提高計算效率。相較于 CPU 中的標量計算單元和 GPU 中的矢量計算單元,TPU 使用二維乃至更高維度的計算單元完成計算任務(wù),將卷積運算循環(huán)展開(kāi)的方式實(shí)現最大限度的數據復用,降低數據傳輸成本,提升加速效率。

其次,TPU 具有更省時(shí)的數據傳輸和高效率的控制單元。馮諾依曼架構帶來(lái)的存儲墻問(wèn)題在深度學(xué)習任務(wù)當中尤為突出,而 TPU 采用更為激進(jìn)的策略設計數據傳輸,且控制單元更小,給片上存儲器和運算單元留下了更大的空間。

最后,TPU 具有設計面向 AI 的加速,強化 AI/ML 計算能力。定位準確,架構簡(jiǎn)單,單線(xiàn)程控制,定制指令集,TPU 架構在深度學(xué)習運算方面效率極高,且易于擴展,更適合超大規模的 AI 訓練計算。

據悉,谷歌 TPUv4 與英偉達 A100 相比的功耗低 1.3-1.9 倍,在 Bert、ResNet 等多類(lèi)工作模型中,效率高于 A100 1.2- 1.9 倍;同時(shí)其 TPUv5/TPU Trillium 產(chǎn)品相比 TPUv4,能夠進(jìn)一步提升 2 倍/接近 10 倍的計算性能??梢钥吹焦雀?TPU 產(chǎn)品相比英偉達的產(chǎn)品在成本與功耗上存在更多優(yōu)勢。

在今年 5 月的 I / O 2024 開(kāi)發(fā)者大會(huì )上,Alphabet 首席執行官桑達爾·皮查伊(Sundar Pichai)宣布了第六代數據中心 AI 芯片 Tensor 處理器單元(TPU)--Trillium,稱(chēng)該產(chǎn)品的速度幾乎是上一代產(chǎn)品的五倍,并表示將于今年晚些時(shí)候推出交付。

谷歌表示,第六代 Trillium 芯片的計算性能比 TPU v5e 芯片提高 4.7 倍,能效比 v5e 高出 67%。這款芯片旨在為從大模型中生成文本和其他內容的技術(shù)提供動(dòng)力。谷歌還表示,第六代 Trillium 芯片將在今年年底可供其云客戶(hù)使用。

谷歌的工程師通過(guò)增加高帶寬內存容量和整體帶寬實(shí)現了額外的性能提升。人工智能模型需要大量的高級內存,而這一直是進(jìn)一步提高性能的瓶頸。

值得注意的是,谷歌并不會(huì )以獨立產(chǎn)品的形態(tài)單獨出售自己的 TPU 芯片,而是通過(guò)谷歌云平臺(Google Cloud Platform,簡(jiǎn)稱(chēng) GCP)向外部客戶(hù)提供基于 TPU 的算力服務(wù)。

在這一方案上也可窺見(jiàn)谷歌的聰明之處:直接銷(xiāo)售硬件涉及高昂的開(kāi)銷(xiāo)和復雜的供應鏈管理。而通過(guò)云服務(wù)提供 TPU,谷歌可以簡(jiǎn)化安裝、部署和管理過(guò)程,減少不確定性和額外開(kāi)銷(xiāo)。這樣的模式也簡(jiǎn)化了銷(xiāo)售流程,無(wú)需額外建立硬件銷(xiāo)售團隊。另外,谷歌正在與 OpenAI 就生成性 AI 進(jìn)行激烈的競爭,如果谷歌開(kāi)始銷(xiāo)售 TPU,它將同時(shí)與兩個(gè)強大的對手競爭:英偉達和 OpenAI,這可能不是目前最明智的策略。

文章說(shuō)到這里,可能會(huì )有人發(fā)問(wèn):既然 TPU 具有如此出色的性能優(yōu)勢,是否會(huì )在很快的未來(lái)取代 GPU?

現在談取代 GPU?或許為時(shí)尚早

這一問(wèn)題也并沒(méi)有這么簡(jiǎn)單。

只說(shuō) TPU 的優(yōu)勢,不講 GPU 的優(yōu)勢,可謂是一葉障目。接下來(lái)我們還要了解一下相比 TPU,GPU 又是如何適用于當前的 AI 大模型訓練。

我們看到 TPU 的優(yōu)勢在于出眾的能效比與單位成本算力指標,然而作為一種 ASIC 芯片,其試錯成本高的劣勢也較為明確。

此外,在生態(tài)系統的成熟度方面。GPU 經(jīng)過(guò)多年的發(fā)展,擁有龐大且成熟的軟件和開(kāi)發(fā)工具生態(tài)。眾多的開(kāi)發(fā)者和研究機構長(cháng)期基于 GPU 進(jìn)行開(kāi)發(fā)和優(yōu)化,積累了豐富的庫、框架和算法。而 TPU 的生態(tài)相對較新,可用的資源和工具可能不如 GPU 豐富,這對于開(kāi)發(fā)者來(lái)說(shuō)可能增加了適配和優(yōu)化的難度。

在通用性方面。GPU 最初是為圖形渲染設計,但其架構具有較高的靈活性,能夠適應多種不同類(lèi)型的計算任務(wù),不僅僅局限于深度學(xué)習。這使得 GPU 在面對多樣化的應用場(chǎng)景時(shí)具有更強的適應性。相比之下,TPU 是專(zhuān)為機器學(xué)習工作負載定制設計的,對于其他非機器學(xué)習相關(guān)的計算任務(wù),可能無(wú)法像 GPU 那樣有效地處理。

最后,GPU 市場(chǎng)競爭激烈,各廠(chǎng)商不斷推動(dòng)技術(shù)創(chuàng )新和產(chǎn)品更新,新的架構和性能提升較為頻繁。而 TPU 的發(fā)展主要由谷歌主導,其更新和演進(jìn)的節奏可能相對較慢,

整體來(lái)說(shuō),英偉達和谷歌在 AI 芯片上的策略各有側重:英偉達通過(guò)提供強大的算力和廣泛的開(kāi)發(fā)者支持,推動(dòng) AI 模型的性能極限;而谷歌則通過(guò)高效的分布式計算架構,提升大規模 AI 模型訓練的效率。這兩種不同的路徑選擇,使得它們在各自的應用領(lǐng)域中都展現出了獨特的優(yōu)勢。

蘋(píng)果選擇谷歌 TPU 的原因可能在于以下幾點(diǎn):首先,TPU 在處理大規模分布式訓練任務(wù)時(shí)表現出色,提供高效、低延遲的計算能力;其次,使用 Google Cloud 平臺,蘋(píng)果可以降低硬件成本,靈活調整計算資源,優(yōu)化 AI 開(kāi)發(fā)的總體成本。此外,谷歌的 AI 開(kāi)發(fā)生態(tài)系統還提供了豐富的工具和支持,使得蘋(píng)果能夠更高效地開(kāi)發(fā)和部署其 AI 模型。

蘋(píng)果的實(shí)例證明了 TPU 在大模型訓練上的能力。但相比于英偉達,TPU 目前在大模型領(lǐng)域的應用依舊還是太少,背后更多的大模型公司,包括 OpenAI、特斯拉、字節跳動(dòng)等巨頭,主力 AI 數據中心依然是普遍采用英偉達 GPU。

因此,現在就下定義說(shuō)谷歌的 TPU 可以打敗英偉達的 GPU 或許為時(shí)尚早,不過(guò) TPU 一定是一個(gè)具有極強挑戰力的選手。

GPU 的挑戰者,不只 TPU

中國也有押注 TPU 芯片的企業(yè)—中昊芯英。中昊芯英創(chuàng )始人楊龔軼凡曾在谷歌作為芯片研發(fā)核心人員,深度參與了谷歌 TPU 2/3/4 的設計與研發(fā),在他看來(lái),TPU 是為 AI 大模型而生的優(yōu)勢架構。

2023 年,中昊芯英「剎那」芯片正式誕生?!竸x那」芯片憑借其獨特的 1024 片芯片高速片間互聯(lián)能力,構建了名為「泰則」的大規模智算集群,其系統集群性能遠超傳統 GPU 數十倍,為超千億參數 AIGC 大模型的訓練與推理提供了前所未有的算力保障。這一成就不僅彰顯了中昊芯英在 AI 算力技術(shù)領(lǐng)域的深厚積累,更為國產(chǎn)芯片在國際舞臺上贏(yíng)得了寶貴的一席之地。

然而,在如今人工智能淘金熱,但英偉達 H100 芯片供不應求、價(jià)格昂貴的背景下,大大小小的企業(yè)都在尋求替代英偉達的 AI 芯片產(chǎn)品,其中包括走傳統 GPU 路線(xiàn)的公司,也包括探尋新型架構的企業(yè)。

GPU 面臨的挑戰者,可遠不止 TPU。

在 GPU 路徑研發(fā)中,英偉達的勁敵莫過(guò)于A(yíng)MD,今年一月有研究人員在 Frontier 超算集群上,利用其中 8% 左右的 GPU,訓練出一個(gè) GPT 3.5 級別規模的大模型。而 Frontier 超算集群是完全基于 AMD 硬件的,由 37888 個(gè) MI250X GPU 和 9472 個(gè) Epyc 7A53 CPU 組成,這次研究也突破了在 AMD 硬件上突破了先進(jìn)分布式訓練模型的難點(diǎn),為 AMD 平臺訓練大模型驗證了可行性。

同時(shí),CUDA 生態(tài)也在逐步擊破,今年 7 月英國公司 Spectral Compute 推出了可以為 AMD GPU 原生編譯 CUDA 源代碼的方案,大幅提高了 AMD GPU 對 CUDA 的兼容效率。

英特爾的 Gaudi 3 也在發(fā)布時(shí)直接對標英偉達 H100。今年 4 月,英特爾就推出用于深度學(xué)習和大型生成式 AI 模型的 Gaudi 3,英特爾稱(chēng),對比前代,Gaudi 3 可提供四倍的浮點(diǎn)格式 BF16 AI 計算能力,內存帶寬提升 1.5 倍,服務(wù)于大規模系統擴展的網(wǎng)絡(luò )帶寬提升兩倍。對比英偉達的芯片 H100,如果應用于 7B 和 13B 參數的 Meta Llama2 模型以及 175B 參數的 OpenAI GPT-3 模型中,Gaudi 3 預計可以讓這些模型的訓練時(shí)間平均縮短 50%。

此外,應用于 7B 和 70B 參數的 Llama 以及 180B 參數的開(kāi)源 Falcon 模型時(shí),Gaudi 3 的推理吞吐量預計將比 H100 平均高 50%,推理功效平均高 40%。而且,在較長(cháng)的輸入和輸出序列上,Gaudi 3 有更大的推理性能優(yōu)勢。

應用于 7B 和 70B 參數的 Llama 以及 180B 參數的 Falcon 模型時(shí),Gaudi 3 的推理速度相比英偉達 H200 提高 30%。

英特爾稱(chēng),Gaudi 3 將在今年第三季度向客戶(hù)供應,二季度向包括戴爾、HPE、聯(lián)想和 Supermicro 在內的 OEM 廠(chǎng)商提供,但并未公布 Gaudi 3 的售價(jià)范圍。

去年 11 月,微軟在 Ignite 技術(shù)大會(huì )上發(fā)布了首款自家研發(fā)的 AI 芯片 Azure Maia 100,以及應用于云端軟件服務(wù)的芯片 Azure Cobalt。兩款芯片將由臺積電代工,采用 5nm 制程技術(shù)。

據悉,英偉達的高端產(chǎn)品一顆有時(shí)可賣(mài)到 3 萬(wàn)到 4 萬(wàn)美元,用于 ChatGPT 的芯片被認為大概就需要有 1 萬(wàn)顆,這對 AI 公司是個(gè)龐大成本。有大量 AI 芯片需求的科技大廠(chǎng)極力尋求可替代的供應來(lái)源,微軟選擇自行研發(fā),便是希望增強 ChatGPT 等生成式 AI 產(chǎn)品的性能,同時(shí)降低成本。

Cobalt 是基于 Arm 架構的通用型芯片,具有 128 個(gè)核心,Maia 100 是一款專(zhuān)為 Azure 云服務(wù)和 AI 工作負載設計的 ASIC 芯片,用于云端訓練和推理的,晶體管數量達到 1050 億個(gè)。這兩款芯片將導入微軟 Azure 數據中心,支持 OpenAI、Copilot 等服務(wù)。

負責 Azure 芯片部門(mén)的副總裁 Rani Borkar 表示,微軟已開(kāi)始用 Bing 和 Office AI 產(chǎn)品測試 Maia 100 芯片,微軟主要 AI 合作伙伴、ChatGPT 開(kāi)發(fā)商 OpenAI,也在進(jìn)行測試中。有市場(chǎng)評論認為,微軟 AI 芯片立項的時(shí)機很巧,正好在微軟、OpenAI 等公司培養的大型語(yǔ)言模型已經(jīng)開(kāi)始騰飛之際。

不過(guò),微軟并不認為自己的 AI 芯片可以廣泛替代英偉達的產(chǎn)品。有分析認為,微軟的這一努力如果成功的話(huà),也有可能幫助它在未來(lái)與英偉達的談判中更具優(yōu)勢。

除了芯片巨頭外,也不乏來(lái)自初創(chuàng )公司的沖擊。比如 Groq 推出的 LPU、Cerebras 推出的 Wafer Scale Engine 3、Etched 推出的 Sohu 等等。

當下,英偉達大約掌控著(zhù) 80% 的人工智能數據中心芯片市場(chǎng),而其余 20% 的大部分則由不同版本的谷歌 TPU 把控。未來(lái),TPU 所占的市場(chǎng)份額會(huì )不會(huì )持續上揚?會(huì )增長(cháng)幾何?是否會(huì )有其他架構的 AI 芯片將現有的市場(chǎng)格局一分為三?這些懸念預計在接下來(lái)的數年間將逐步揭曉。



關(guān)鍵詞: GPU TPU

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>