大模型市場(chǎng),不止帶火HBM
近日,HBM 成為芯片行業(yè)的火熱話(huà)題。據 TrendForce 預測,2023 年高帶寬內存(HBM)比特量預計將達到 2.9 億 GB,同比增長(cháng)約 60%,2024 年預計將進(jìn)一步增長(cháng) 30%。2008 年被 AMD 提出的 HBM 內存概念,在 2013 年被 SK 海力士通過(guò) TSV 技術(shù)得以實(shí)現,問(wèn)世 10 年后 HBM 似乎真的來(lái)到了大規模商業(yè)化的時(shí)代。
本文引用地址:http://dyxdggzs.com/article/202307/448547.htmHBM 的概念的起飛與 AIGC 的火爆有直接關(guān)系。AI 服務(wù)器對帶寬提出了更高的要求,與 DDR SDRAM 相比,HBM 具有更高的帶寬和更低的能耗。超高的帶寬讓 HBM 成為了高性能 GPU 的核心組件,HBM 基本是 AI 服務(wù)器的標配。目前,HBM 成本在 AI 服務(wù)器成本中占比排名第三,約占 9%,單機平均售價(jià)高達 18,000 美元。
自從去年 ChatGPT 出現以來(lái),大模型市場(chǎng)就開(kāi)始了高速增長(cháng),國內市場(chǎng)方面,百度、阿里、科大訊飛、商湯、華為等科技巨頭接連宣布將訓練自己的 AI 大模型。TrendForce 預測,2025 年將有 5 個(gè)相當于 ChatGPT 的大型 AIGC、25 個(gè) Midjourney 的中型 AIGC 產(chǎn)品、80 個(gè)小型 AIGC 產(chǎn)品,即使是全球所需的最小計算能力資源也可能需要 145,600 至 233,700 個(gè)英偉達 A100 GPU。這些都是 HBM 的潛在增長(cháng)空間。
2023 年開(kāi)年以來(lái),三星、SK 海力士 HBM 訂單就快速增加,HBM 的價(jià)格也水漲船高,近期 HBM3 規格 DRAM 價(jià)格上漲了 5 倍。三星已收到 AMD 與英偉達的訂單,以增加 HBM 供應。SK 海力士已著(zhù)手擴建 HBM 產(chǎn)線(xiàn),目標將 HBM 產(chǎn)能翻倍。韓媒報道,三星計劃投資約 7.6 億美元擴產(chǎn) HBM,目標明年底之前將 HBM 產(chǎn)能提高一倍,公司已下達主要設備訂單。
HBM 在 AIGC 中的優(yōu)勢
直接地說(shuō),HBM 將會(huì )讓服務(wù)器的計算能力得到提升。由于短時(shí)間內處理大量數據,AI 服務(wù)器對帶寬提出了更高的要求。HBM 的作用類(lèi)似于數據的「中轉站」,就是將使用的每一幀、每一幅圖像等圖像數據保存到幀緩存區中,等待 GPU 調用。與傳統內存技術(shù)相比,HBM 具有更高帶寬、更多 I/O 數量、更低功耗、更小尺寸,能夠讓 AI 服務(wù)器在數據處理量和傳輸速率有大幅提升。
來(lái)源:rambus
可以看到 HBM 在帶寬方面有著(zhù)「碾壓」級的優(yōu)勢。如果 HBM2E 在 1024 位寬接口上以 3.6Gbps 的速度運行,那么就可以得到每秒 3.7Tb 的帶寬,這是 LPDDR5 或 DDR4 帶寬的 18 倍以上。
除了帶寬優(yōu)勢,HBM 可以節省面積,進(jìn)而在系統中安裝更多 GPU。HBM 內存由與 GPU 位于同一物理封裝上的內存堆棧組成。
這樣的架構意味著(zhù)與傳統的 GDDR5/6 內存設計相比,可節省大量功耗和面積,從而允許系統中安裝更多 GPU。隨著(zhù) HPC、AI 和數據分析數據集的規模不斷增長(cháng),計算問(wèn)題變得越來(lái)越復雜,GPU 內存容量和帶寬也越來(lái)越大是一種必需品。H100 SXM5 GPU 通過(guò)支持 80 GB(五個(gè)堆棧)快速 HBM3 內存,提供超過(guò) 3 TB/秒的內存帶寬,是 A100 內存帶寬的 2 倍。
過(guò)去對于 HBM 來(lái)說(shuō),價(jià)格是一個(gè)限制因素。但現在大模型市場(chǎng)上正處于百家爭鳴時(shí)期,對于布局大模型的巨頭們來(lái)說(shuō)時(shí)間就是金錢(qián),因此「貴有貴的道理」的 HBM 成為了大模型巨頭的新寵。隨著(zhù)高端 GPU 需求的逐步提升,HBM 開(kāi)始成為 AI 服務(wù)器的標配。
目前英偉達的 A100 及 H100,各搭載達 80GB 的 HBM2e 及 HBM3,在其最新整合 CPU 及 GPU 的 Grace Hopper 芯片中,單顆芯片 HBM 搭載容量再提升 20%,達 96GB。
AMD 的 MI300 也搭配 HBM3,其中,MI300A 容量與前一代相同為 128GB,更高端 MI300X 則達 192GB,提升了 50%。
預期 Google 將于 2023 年下半年積極擴大與 Broadcom 合作開(kāi)發(fā) AISC AI 加速芯片 TPU 也計劃搭載 HBM 存儲器,以擴建 AI 基礎設施。
存儲廠(chǎng)商加速布局
這樣的「錢(qián)景」讓存儲巨頭們加速對 HBM 內存的布局。目前,全球前三大存儲芯片制造商正將更多產(chǎn)能轉移至生產(chǎn) HBM,但由于調整產(chǎn)能需要時(shí)間,很難迅速增加 HBM 產(chǎn)量,預計未來(lái)兩年 HBM 供應仍將緊張。
HBM 的市場(chǎng)主要還是被三大 DRAM 巨頭把握。不過(guò)不同于 DRAM 市場(chǎng)被三星領(lǐng)先,SK 海力士在 HBM 市場(chǎng)上發(fā)展的更好。如開(kāi)頭所說(shuō),SK 海力士開(kāi)發(fā)了第一個(gè) HBM 產(chǎn)品。2023 年 4 月,SK 海力士宣布開(kāi)發(fā)出首個(gè) 24GB HBM3 DRAM 產(chǎn)品,該產(chǎn)品用 TSV 技術(shù)將 12 個(gè)比現有芯片薄 40% 的單品 DRAM 芯片垂直堆疊,實(shí)現了與 16GB 產(chǎn)品相同的高度。同時(shí),SK 海力士計劃在 2023 年下半年準備具備 8Gbps 數據傳輸性能的 HBM3E 樣品,并將于 2024 年投入量產(chǎn)。
國內半導體公司對 HBM 的布局大多圍繞著(zhù)封裝及接口領(lǐng)域。
國芯科技目前正在研究規劃合封多 HBM 內存的 2.5D 的芯片封裝技術(shù),積極推進(jìn) Chiplet 技術(shù)的研發(fā)和應用。
通富微電公司 2.5D/3D 生產(chǎn)線(xiàn)建成后,將實(shí)現國內在 HBM 高性能封裝技術(shù)領(lǐng)域的突破。
佰維存儲已推出高性能內存芯片和內存模組,將保持對 HBM 技術(shù)的持續關(guān)注。
瀾起科技 PCIe 5.0/CXL 2.0 Retimer 芯片實(shí)現量產(chǎn),該芯片是瀾起科技 PCIe 4.0 Retimer 產(chǎn)品的關(guān)鍵升級,可為業(yè)界提供穩定可靠的高帶寬、低延遲 PCIe 5.0/ CXL 2.0 互連解決方案。
HBM 雖好但仍需冷靜,HBM 現在依舊處于相對早期的階段,其未來(lái)還有很長(cháng)的一段路要走。而可預見(jiàn)的是,隨著(zhù)越來(lái)越多的廠(chǎng)商在 AI 和機器學(xué)習等領(lǐng)域不斷發(fā)力,內存產(chǎn)品設計的復雜性正在快速上升,并對帶寬提出了更高的要求,不斷上升的寬帶需求將持續驅動(dòng) HBM 發(fā)展。
HBM 火熱反映了 AIGC 的帶動(dòng)能力。那么除了 HBM 和 GPU,是否還有別的產(chǎn)品在這波新風(fēng)潮中能夠順勢發(fā)展?
談?wù)勂渌粠Щ鸬男酒?/span>
FPGA 的優(yōu)勢開(kāi)始顯現
FPGA(Field Programmable Gate Array,現場(chǎng)可編程門(mén)陣列)是一種集成電路,具有可編程的邏輯元件、存儲器和互連資源。不同于 ASIC(專(zhuān)用集成電路),FPGA 具備靈活性、可定制性、并行處理能力、易于升級等優(yōu)勢。
通過(guò)編程,用戶(hù)可以隨時(shí)改變 FPGA 的應用場(chǎng)景,FPGA 可以模擬 CPU、GPU 等硬件的各種并行運算。因此,在業(yè)內也被稱(chēng)為「萬(wàn)能芯片」。
FPGA 對底層模型頻繁變化的人工智能推理需求很有意義。FPGA 的可編程性超過(guò)了 FPGA 使用的典型經(jīng)濟性。需要明確的是,FPGA 不會(huì )成為使用數千個(gè) GPU 的大規模人工智能系統的有力競爭對手,但隨著(zhù)人工智能進(jìn)一步滲透到電子領(lǐng)域,FPGA 的應用范圍將會(huì )擴大。
FPGA 相比 GPU 的優(yōu)勢在于更低的功耗和時(shí)延。GPU 無(wú)法很好地利用片上內存,需要頻繁讀取片外的 DRAM,因此功耗非常高。FPGA 可以靈活運用片上存儲,因此功耗遠低于 GPU。
6 月 27 日,AMD 宣布推出 AMD Versal Premium VP1902 自適應片上系統(SoC),是基于 FPGA 的自適應 SoC。這是一款仿真級、基于小芯片的設備,能夠簡(jiǎn)化日益復雜的半導體設計的驗證。據悉,AMD VP1902 將成為全球最大的 FPGA,對比上一代產(chǎn)品(Xilinx VU19P),新的 VP1902 增加了 Versal 功能,并采用了小芯片設計,使 FPGA 的關(guān)鍵性能增加了一倍以上。
東興證券研報認為,FPGA 憑借其架構帶來(lái)的時(shí)延和功耗優(yōu)勢,在 AI 推理中具有非常大的優(yōu)勢。浙商證券此前研報亦指出,除了 GPU 以外,CPU+FPGA 的方案也能夠滿(mǎn)足 AI 龐大的算力需求。
不同于 HBM 被海外公司壟斷,國內公司 FPGA 芯片已經(jīng)有所積累。
安路科技主營(yíng)業(yè)務(wù)為 FPGA 芯片和專(zhuān)用 EDA 軟件的研發(fā)、設計和銷(xiāo)售,產(chǎn)品已廣泛應用于工業(yè)控制、網(wǎng)絡(luò )通信、消費電子等領(lǐng)域。紫光國微子公司紫光同創(chuàng )是專(zhuān)業(yè)的 FPGA 公司,設計和銷(xiāo)售通用 FPGA 芯片。紫光國微曾在業(yè)績(jì)說(shuō)明會(huì )上表示,公司的 FPGA 芯片可以用于 AI 領(lǐng)域。東土科技主要開(kāi)展 FPGA 芯片的產(chǎn)業(yè)化工作,公司參股公司中科億海微團隊自主開(kāi)發(fā)了支撐其 FPGA 產(chǎn)品應用開(kāi)發(fā)的 EDA 軟件。
國產(chǎn)替代新思路:存算一體+Chiplet
能否利用我們現在可用的工藝和技術(shù)來(lái)開(kāi)發(fā)在性能上可以跟英偉達對標的 AI 芯片呢?一些「新思路」出現了,例如存算一體+Chiplet。
存算分離會(huì )導致算力瓶頸。AI 技術(shù)的快速發(fā)展,使得算力需求呈爆炸式增長(cháng)。在后摩爾時(shí)代,存儲帶寬制約了計算系統的有效帶寬,系統算力增長(cháng)步履維艱。例如,8 塊 1080TI 從頭訓練 BERT 模型需 99 天。存算一體架構沒(méi)有深度多層級存儲的概念,所有的計算都放在存儲器內實(shí)現,從而消除了因為存算異構帶來(lái)的存儲墻及相應的額外開(kāi)銷(xiāo);存儲墻的消除可大量減少數據搬運,不但提升了數據傳輸和處理速度,而且能效比得以數倍提升。
一方面,存算一體架構與傳統架構處理器處理同等算力所需的功耗會(huì )降低;另一方面,存算一體的數據狀態(tài)都是編譯器可以感知的,因此編譯效率很高,可以繞開(kāi)傳統架構的編譯墻。
美國亞利桑那州立大學(xué)的學(xué)者于 2021 年發(fā)布了一種基于 Chiplet 的 IMC 架構基準測試仿真器 SIAM, 用于評估這種新型架構在 AI 大模型訓練上的潛力。SIAM 集成了器件、電路、架構、片上網(wǎng)絡(luò ) (NoC)、封裝網(wǎng)絡(luò ) (NoP) 和 DRAM 訪(fǎng)問(wèn)模型,以實(shí)現一種端到端的高性能計算系統。SIAM 在支持深度神經(jīng)網(wǎng)絡(luò ) (DNN) 方面具有可擴展性,可針對各種網(wǎng)絡(luò )結構和配置進(jìn)行定制。其研究團隊通過(guò)使用 CIFAR-10、CIFAR-100 和 ImageNet 數據集對不同的先進(jìn) DNN 進(jìn)行基準測試來(lái)展示 SIAM 的靈活性、可擴展性和仿真速度。據稱(chēng),相對于英偉達 V100 和 T4 GPU, 通過(guò) SIAM 獲得的 chiplet +IMC 架構顯示 ResNet-50 在 ImageNet 數據集上的能效分別提高了 130 和 72。
這意味著(zhù),存算一體 AI 芯片有希望借助 Chiplet 技術(shù)和 2.5D / 3D 堆疊封裝技術(shù)實(shí)現異構集成,從而形成大型計算系統。存算一體 + Chiplet 組合似乎是一種可行的實(shí)現方式,據稱(chēng)億鑄科技正在這條路上探索,其第一代存算一體 AI 大算力商用芯片可實(shí)現單卡算力 500T 以上,功耗在 75W 以?xún)?。也許這將開(kāi)啟 AI 算力第二增長(cháng)曲線(xiàn)的序幕。
結語(yǔ)
世界人工智能大會(huì )上,AMD CEO 蘇姿豐表示,未來(lái)十年一定會(huì )出現一個(gè)大型計算超級周期,因此,目前正是一個(gè)成為技術(shù)供應商的好時(shí)機,同時(shí)也是與一些將會(huì )利用這些技術(shù)開(kāi)發(fā)不同應用的客戶(hù)合作的好時(shí)機。
沒(méi)有人想要一個(gè)只有一個(gè)主導者的行業(yè)。大模型市場(chǎng)能否讓芯片行業(yè)擁有新的市場(chǎng)格局,能否讓新玩家出現?
「大模型市場(chǎng)對芯片行業(yè)帶來(lái)了新的市場(chǎng)格局和機會(huì )。通過(guò)推動(dòng) AI 芯片的發(fā)展、促進(jìn)云計算和數據中心市場(chǎng)的增長(cháng)以及引發(fā)競爭格局變化,大模型的興起為芯片行業(yè)帶來(lái)了新的發(fā)展方向。
需要注意的是,芯片行業(yè)是一個(gè)高度競爭和技術(shù)密集的行業(yè)。進(jìn)入該行業(yè)需要龐大的資金和技術(shù)資源,以滿(mǎn)足復雜的制造和研發(fā)要求。盡管大模型市場(chǎng)為新玩家提供了機會(huì ),但他們需要克服技術(shù)、資金和市場(chǎng)等方面的挑戰,才能在競爭激烈的芯片行業(yè)中獲得成功?!笴hatgpt 如是回應。
評論