<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 網(wǎng)絡(luò )與存儲 > 設計應用 > HBM2E 和GDDR6: AI內存解決方案

HBM2E 和GDDR6: AI內存解決方案

作者: 時(shí)間:2020-09-29 來(lái)源:電子產(chǎn)品世界 收藏


本文引用地址:http://dyxdggzs.com/article/202009/418928.htm

前言

人工智能/機器學(xué)習(AI/)改變了一切,影響著(zhù)每個(gè)行業(yè)并觸動(dòng)著(zhù)每個(gè)人的生 活。人工智能正在推動(dòng)從5G到物聯(lián)網(wǎng)等一系列技術(shù)市場(chǎng)的驚人發(fā)展。從2012年到 2019年,人工智能訓練集增長(cháng)了30萬(wàn)倍,每3.43個(gè)月翻一番,這就是最有力的證 明。支持這一發(fā)展速度需要的遠不止摩爾定律所能實(shí)現的改進(jìn),摩爾定律在任何情況下都在放緩,這就要求人工智能計算機硬件和軟件的各個(gè)方面都需要不斷的快速改進(jìn)。

image.png

從2012年至今,訓練能力增長(cháng)了30萬(wàn)倍

帶寬將成為人工智能持續增長(cháng)的關(guān)鍵焦點(diǎn)領(lǐng)域之一。以先進(jìn)的駕駛員輔助系統()為例。第3級及更高級別系統的復雜數據處理需要超過(guò)200 GB/s 的帶寬。這些高帶寬是復雜的AI/算法的基本需求,在道路上自駕過(guò)程中這些算法需要快速執行大量計算并安全地執行實(shí)時(shí)決策。在第5級,即完全自主駕駛,車(chē)輛能夠獨立地對交通標志和信號的動(dòng)態(tài)環(huán)境作出反應,以及準確地預測汽車(chē)、卡車(chē)、自行車(chē)和行人的移動(dòng),將需要巨大的帶寬。隨著(zhù)新一代AI/加 速器和專(zhuān)用芯片的快速發(fā)展,新的內存解決方案,如高帶寬內存(HBM、HBM2 、HBM2E)和GDDR6 S(GDDR6)漸被采用來(lái)提供所需的帶寬。

image.png

在為AI/ML應用程序所需而在HBM2E(最新一代HBM)和GDDR6之間做選擇時(shí),設計者必須考慮許多權衡和關(guān)鍵指標,包括成本、功率、容量和實(shí)現復雜性。在本白皮書(shū)中,我們將探討HBM2E和GDDR6的優(yōu)點(diǎn)和設計注意事項。我們還將強調每個(gè)內存在整個(gè)AI/ML架構中的適用性。最后,我們將討論Rambus的HBM2E和GDDR6接口解決方案,它們可以用來(lái)實(shí)現一個(gè)完整的內存子系統。

GDDR6 和HBM2E 提供了不同的優(yōu)點(diǎn)和設計權衡

image.png

image.png

GDDR6 內存系統四個(gè)16Gbps x32 GDDR6 s

第一部分:HBM2E 內存

高帶寬內存(HBM)于2013年推出,是一種高性能3D堆棧S構架。與前一代產(chǎn)品一樣,HBM2為每個(gè)堆棧包含最多8個(gè)內存芯片,同時(shí)將管腳傳輸速率翻倍,達到2 Gbps。HBM2實(shí)現每個(gè)封裝256GB/s的內存帶寬(DRAM堆棧),采用HBM2規格,每個(gè)封裝支持高達8GB的容量。

2018年末,JEDEC宣布推出HBM2E規范,以支持增加的帶寬和容量。當傳輸速率上升到每管腳3.6Gbps時(shí),HBM2E可以實(shí)現每堆棧461GB/s的內存帶寬。此外,HBM2E支持12個(gè)DRAM的堆棧,內存容量高達每堆棧24 GB。

image.png

HBM2E 內存系統單個(gè)2Gbps HBM2E設備

所有版本的HBM都以相對較低的數據傳輸速率運行,但通過(guò)采用極寬的接口實(shí)現了非常高的帶寬。具體地說(shuō),每一個(gè)運行速度高達3.6Gbps的HBM2E堆棧通過(guò)1024個(gè)數據“線(xiàn)”的接口連接到它的相關(guān)處理器。通過(guò)命令和地址,線(xiàn)的數量增加到大約1700條。這遠遠超出了標準PCB所能支持的范圍。因此,硅中介層被采用作為連接內存堆棧和處理器的中介。與SoC一樣,精細數據走線(xiàn)可以在硅中介層中以蝕刻間隔的方式實(shí)現,以獲得HBM接口所需數量的數據線(xiàn)數。

QQ瀏覽器截圖20200929173024.png

單一DRAM堆棧的HBM2E內存系統

HBM2E 和GDDR6: AI內存解決方案

HBM2E提供了達成巨大內存帶寬的能力。連接到一個(gè)處理器的四塊HBM2E內存堆棧將提供超過(guò)1.8 TB/s的帶寬。通過(guò)3D堆疊內存,可以以極小的空間實(shí)現高帶寬和高容量需求。進(jìn)一步,通過(guò)保持相對較低的數據傳輸速率,并使內存靠近處理器,總體系統功率得以維持在較低水位。

采用HBM的設計的代價(jià)是增加復雜性和成本。中介層是一個(gè)附加元件,必須進(jìn)行設計、特性化和制造。與制造傳統DDR型內存(包括GDDR)的巨大容量和制造經(jīng)驗相比,3D堆疊內存的出貨量顯得微不足道。最終的結果是,采用和制造HBM2E成本高于GDDR6。

出色的帶寬、容量,低功耗的延遲、極小的尺寸空間,使HBM2E內存成為AI訓練硬件的最佳選擇。

然而,對于人工智能訓練應用,HBM2E的優(yōu)點(diǎn)使其成為一個(gè)更好的選擇。它的性能非常出色,所增加的采用和制造成本可以透過(guò)節省的電路板空間和電力相互的緩解 。在物理空間日益受限的數據中心環(huán)境中,HBM2E緊湊的體系結構提供了切實(shí)的好處。它的低功率意味著(zhù)它的熱負荷較低,在這種環(huán)境中,冷卻成本通常是幾個(gè)最大的運營(yíng)成本之一。

總而言之,HBM2E為系統設計者提供了極高的帶寬能力和最佳的功率效率。雖說(shuō)采用HBM2e系統的因設計復雜性和空間的增加,而更具挑戰,但是板材面積的系統冷卻支出的節省卻是無(wú)與倫比。對于人工智能訓練,HBM2E是一個(gè)理想的解決方案。這一事實(shí)是基于采用HBM2E強大成功記錄之上的,例如已被采用人工智能的處理器,如英偉達的Telsla A100和谷歌第二代TPU。

image.png

第二部分:GDDR6 內存

圖形DDR SDRAM(GDDR SDRAM)最初是20多年前為游戲和顯卡市場(chǎng)設計的。在這段時(shí)間內,GDDR經(jīng)歷了幾次重大變革,最新一代GDDR6的數據傳輸速率為16Gbps。GDDR6提供了令人印象深刻的帶寬、容量、延遲和功率。它將工作電壓從1.5V降低到1.35V以獲得更高的功率效率,并使GDDR5內存的數據傳輸速率(16比8 Gbps)和容量(16比8 GB)翻了一番。Rambus已經(jīng)演示了一個(gè)運行速度為18 Gbps的GDDR6接口,顯示這種內存架構還有額外的增長(cháng)空間。

與HBM2E不同,GDDR6 DRAM采用與生產(chǎn)標準DDR式DRAM的大批量制造和組裝一樣的技術(shù)。更具體地說(shuō),GDDR6采用傳統的方法,通過(guò)標準PCB將封裝和測試的DRAMs與SoC連接在一起。利用現有的基礎架構和流程為系統設計者提供了 熟悉度,從而降低了成本和實(shí)現的復雜性。

image.png

帶有四個(gè) DRAM的 GDDR6內存系統

GDDR6內存出色的性?xún)r(jià)比,建立在經(jīng)過(guò)時(shí)間考驗的制造流程之上,使其成為人工智能推理應用的絕佳選擇。

與HBM2E寬而慢的內存接口不同,GDDR6接口窄而快。兩個(gè)16位寬通道(32條 數據線(xiàn))將GDDR6 PHY連接到相關(guān)的SDRAM。GDDR6接口以每針16 Gbps的速度運行,可以提供64 GB/s的帶寬?;氐轿覀冎暗腖3汽車(chē)示例,GDDR6內存系 統以連接四個(gè)DRAM設備為例,帶寬可以達到200 GB/s。

采用GDDR6的主要設計挑戰也來(lái)自于它最強大的特性之一:速度。在較低的電壓條件,16 Gbps的信號速度下,保持信號完整性需要大量的專(zhuān)業(yè)經(jīng)驗知識。設計人員面臨更緊的時(shí)序和電壓裕度量損失,這些損失來(lái)源與影響都在迅速增加。系 統的接口行為、封裝和電路板需要相互影響,需要采用協(xié)同設計方法來(lái)保證系統的信號完整性。

總的來(lái)說(shuō),GDDR6內存的優(yōu)異性能特性建立久經(jīng)考驗的基礎制造過(guò)程之上,是人工智能推理的理想內存解決方案。其出色的性?xún)r(jià)比使其適合在廣泛的邊緣網(wǎng)絡(luò )和物聯(lián)網(wǎng)終端設備上大量采用。

image.pngimage.pngimage.png

GDDR6提供了最佳的內存設計和使用效率

L3 內存系統實(shí)施實(shí)例

可能沒(méi)有比更苛刻的“物聯(lián)網(wǎng)”人工智能推理應用程序。在一個(gè)負責保護生命和財產(chǎn)的體系中,認證標準必然很高。最終的結果是,經(jīng)過(guò)路試的內存架構,如LPDDR(擁有數十億的移動(dòng)電話(huà)采用)和GDDR6已經(jīng)在早期的ADAS系統中得到了實(shí)現。 如上圖所示,LPDDR4/5內存架構可以達到L3-ADAS系統200GB/s的帶寬閾值, 但這需要大量的DRAM設備來(lái)實(shí)現。

從設計和利用的角度來(lái)看,GDDR6的效率要高得多,只需要不到一半的內存顆粒數量就能達到所需的系統帶寬。隨著(zhù)帶寬需求的增加,以滿(mǎn)足L4和L5 ADAS的需求,GDDR6成為唯一可行的替代方案。

如下圖所示,在L4 ADAS中,帶寬要求提高到300 GB/s。如果LPDDR5接口以 6.4 Gbps的速度運行,則需要12個(gè)DRAM設備才能達到這一目標。SoC的芯片前 沿邊將被內存接口給全盤(pán)占據而令SOC版圖設計變復雜而不切實(shí)際。運行速度為 16 Gbps的GDDR6僅用5個(gè)內存顆粒就可以提供超過(guò)300 GB/s的帶寬,而對于L5 ADA,只需 8個(gè)內存顆粒就可以達到500 GB/s以上的帶寬。

image.png

隨著(zhù)更高級別的ADAS,內存帶寬需求迅速增長(cháng)

ADAS記憶體帶寬要求

總之,GDDR6提供了帶寬、容量、能效、可靠性和性?xún)r(jià)比的完美結合。有了像 Rambus這樣值得信賴(lài)的合作伙伴,SoC設計人員可以實(shí)現所有這些好處,同時(shí)解決因16Gbps或更高速度運行帶來(lái)的SI挑戰。

image.png

第三部分:HBM2E 和GDDR-AI的合作伙伴

鑒于A(yíng)I/ML的需求分流的特性,內存的選擇取決于應用:訓練還是推理。HBM2E 和GDDR6這兩種高帶寬內存可以起到至關(guān)重要的作用,而不是“或”的問(wèn)題,而 是“和”的問(wèn)題之一。

對于訓練來(lái)說(shuō),帶寬和容量是至關(guān)重要的需求。特別是考慮到訓練集的規模正以每3.43個(gè)月翻一番的速度增長(cháng),正如我們前面討論的那樣?,F行訓練工作負載在多個(gè)服務(wù)器上運行,以提供所需的處理能力,對虛擬化處理有翻天覆地的改變??紤]到通過(guò)訓練創(chuàng )造的價(jià)值,并鑒于強大的“提早上市”誘因,其驅動(dòng)盡快完成訓練計算的需求。此外,在數據中心運行的訓練應用程序因電源和空間所致的限制越來(lái)越大,因此有一個(gè)提供更佳能效和更小尺寸的解決方案是一大加分。

考慮到所有這些需求,HBM2E是AI訓練硬件的理想內存解決方案。它提供了出色的帶寬和容量能力:461 GB/s的內存帶寬和24 GB的容量,以單個(gè)12 DRAM 的 HBM2E堆棧即能實(shí)現。由于接口速度低和處理器距離近,它的3D結構能以非常緊湊的尺寸和較低的功耗提供這些特性。

在推理的情況下,帶寬和延遲對于實(shí)時(shí)操作的需求至關(guān)重要。隨著(zhù)推理被采用在廣泛的邊緣和物聯(lián)網(wǎng)終端設備上,其將比位于數據中心核心的實(shí)施成本更敏感。 此外,對于A(yíng)DAS,內存將需要依在道路測試技術(shù)以及制造工藝需求來(lái)建造,以滿(mǎn)足嚴格的認證要求。隨著(zhù)5G的不斷推出,將有越來(lái)越多的人工智能驅動(dòng)的、不受約束的設備執行復雜的推理。

對于人工智能推理這一日益具有挑戰性的領(lǐng)域,GDDR6是一個(gè)理想的解決方案。它可以單個(gè)或少量的DRAM顆粒提供出色的帶寬:在16 Gbps的數據速率下,每個(gè)顆粒有64GB/s的內存帶寬?;诔墒斓闹圃旃に?,它提供了適合大量生產(chǎn)的性?xún)r(jià)比特性。

結果是,AI/ML并不是單一的,其訓練和推理都需要根據其特定需求定制的內存解決方案。HBM2E和GDDR6分別滿(mǎn)足了訓練和推理的需求,提供了這些應用程 序所需的一系列長(cháng)處。正如前面討論的一樣,HBM2E與GDDR6呈現不同設計和 實(shí)施的挑戰。但是有了像Rambus這樣值得信賴(lài)的合作伙伴的解決方案,這些內存的好處就可以很容易地實(shí)現。在下一節中,我們將回顧Rambus提供的HBM2E 和GDDR6接口解決方案。

image.png

第四部分:Rambus HBM2E 內存接口解決方案

針對高帶寬和低延遲進(jìn)行了優(yōu)化,Rambus HBM2E接口提供了最好的性能與最小面積尺寸的特點(diǎn)和高效率。該接口由一個(gè)與PHY共同驗證的數字控制器組成,包括一個(gè)完整的HBM2E內存子系統。

Rambus HBM2E接口完全符合JEDEC JESD235B標準。它支持每個(gè)數據引腳高達 3.6 Gbps的數據傳輸速率。該接口具有8個(gè)獨立的通道,每個(gè)通道包含128位,總 數據寬度為1024位。由此每個(gè)堆棧支持的帶寬是461GB/s,每個(gè)堆棧由2、4、8或 12個(gè)DRAMs組成。

該接口是為一個(gè)2.5D系統設計的,它有一個(gè)用于在3D-DRAM堆棧和SoC上的PHY之間的中介層由提供信號繞線(xiàn)。這種信號密度和堆積尺寸的組合需要特殊的 設計考慮。為了便于實(shí)施和提高了設計的靈活性,Rambus對整個(gè)2.5D系統進(jìn)行完整的信號和功率完整性分析,以確保所有信號、功率和散熱要求都得到滿(mǎn)足。 

其他主要功能包括:

●   共同驗證過(guò)的PHY和數字控制器

●   支持速度范圍: 0.5, 1.0, 1.5, 1.6, 1.8, 2.0, 2.4, 3.0, 3.2, 3.6 Gbps

●   8個(gè)通道和16個(gè)偽通道

●   支持2、4、8或12個(gè)DRAM堆棧

●   支持所有標準HBM2E通道密度(4、6、8、12、16、24 Gb)

●   內存控制器或PHY可以是ASIC接口主機(PHY獨立模式)

●   可選低功率運行狀態(tài)

●   可編程輸出阻抗

●   用于鏈路修復的引腳可編程支持

●   輸出阻抗的ZQ校準

●   IEEE 1500測試支持

●   自主測試支持

●   SSO降噪

●   微凸塊間距DRAM間距間距匹配

●   采用13層或15層金屬疊層

●   東西向(PHY可放置在die角落)

●   狀態(tài)觀(guān)察寄存器接口

●   具有特色的LabStation?軟件開(kāi)發(fā)環(huán)境,有效隔離問(wèn)題,快速系統點(diǎn)亮、 校正和驗證

image.png

HBM2E內存接口子系統示例

第五部分:Rambus GDDR6 內存接口解決方案

Rambus GDDR6接口專(zhuān)為性能和功率效率而設計,支持AI/ML和ADAS推理高帶 寬與低延遲要求。它由一個(gè)經(jīng)共同驗證的PHY和數字控制器組成,提供一個(gè)完整的GDDR6內存子系統。Rambus GDDR6接口完全符合JEDEC GDDR6 JESD250標 準,每個(gè)引腳支持高達16 Gbps。GDDR6接口支持2個(gè)通道,每個(gè)通道有16位, 總數據寬度為32位。Rambus GDDR6接口每針16 Gbps,提供帶寬為64 GB/s。

Rambus直接與客戶(hù)合作,提供完整的系統信號和電源完整性(SI/PI)分析,創(chuàng )建優(yōu)化的芯片布線(xiàn)版圖??蛻?hù)收到一個(gè)硬核解決方案與全套測試軟件可以快速啟動(dòng),定性和調試。

其他主要特性包括

●   經(jīng)共同驗證的PHY和數字控制器

●   IP核的靈活交付(符合ASIC/SoC版圖 布線(xiàn) 要求)

●   支持速度范圍:12、14和 16 Gbps。Rambus展示了18 Gbps的未來(lái)可擴展性。

●   兩個(gè)16位通道

●   支持GDDR6 SGRAM

●   內存控制器或PHY可以是ASIC接口主機(PHY獨立模式)

●   可選低功率運行狀態(tài)

●   可編程驅動(dòng)器/終端阻抗值

●   驅動(dòng)器/終端阻抗校準

●   建置測試支持

●   采用13層金屬疊層

●   狀態(tài)觀(guān)察寄存器接口

●   具有特色的LabStation?軟件開(kāi)發(fā)環(huán)境,有校隔離問(wèn)題,快速系統點(diǎn)亮校正和驗證

image.png

GDDR6 內存接口子系統示例

總結

AI/ML的發(fā)展速度非???。訓練能力正以每年10倍的速度增長(cháng),推動(dòng)著(zhù)計算機硬 件和軟件各方面的快速發(fā)展。與此同時(shí),人工智能推理正在網(wǎng)絡(luò )邊緣和廣泛的物聯(lián)網(wǎng)設備中采用,包括在汽車(chē)/ADAS中。訓練和推理有其獨特的應用,定制內存解決方案可以滿(mǎn)足的需求,HBM2E是前者的理想選擇,GDDR6是后者的理想選擇。設計師可以通過(guò)與Rambus合作來(lái)克服這些架構中固有的設計挑戰,從而實(shí)現這些高性能內存的長(cháng)處。Rambus提供全面且現成的HBM2E和GDDR6內存接口解決方案,可集成到AI/ML訓練和推理SoCs中。

image.png




關(guān)鍵詞: ADAS ML DRAM 內存

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>