<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 入選芯片頂會(huì )ISSCC,阿里達摩院最新存算芯片技術(shù)解讀

入選芯片頂會(huì )ISSCC,阿里達摩院最新存算芯片技術(shù)解讀

發(fā)布人:深科技 時(shí)間:2021-12-14 來(lái)源:工程師 發(fā)布文章
存算技術(shù)在海量數據計算場(chǎng)景中擁有天然的優(yōu)勢。

作者 |  陳巍 千芯科技
編者注:阿里達摩院12月3日宣布其已成功研發(fā)基于DRAM的3D鍵合堆疊存算一體AI芯片,該芯片可滿(mǎn)足AI等場(chǎng)景對高帶寬、高容量?jì)却婧蜆O致算力的需求,相關(guān)研究成果已被國際芯片頂會(huì )ISSCC 2022收錄。本文為千芯科技董事長(cháng)陳巍對該芯片創(chuàng )新技術(shù)的解讀。12月3日,阿里達摩院宣布成功研發(fā)新型架構芯片,已經(jīng)被證明能夠在阿里推薦系統中發(fā)揮極大的應用價(jià)值,并受到技術(shù)圈的普遍關(guān)注。據悉,這顆芯片與數據中心的推薦系統對于帶寬/存儲的需求完美匹配,大幅提升帶寬的同時(shí)還實(shí)現了超低功耗,充分展示了存算技術(shù)(第一代僅是近存計算)在數據中心場(chǎng)景的潛力。


讓我們根據達摩院成員已公開(kāi)的技術(shù)信息,來(lái)大膽解讀這顆芯片的新科技。據悉,該工作將發(fā)表在2022年ISSCC的Session 29的第一篇,堪稱(chēng)Session 29的扛鼎之作。需要說(shuō)明的是,ISSCC(International Solid-State Circuits Conference)被業(yè)界視為芯片設計界的奧林匹克運動(dòng)會(huì ),是芯片設計圈的頂級盛會(huì )。根據該論文的信息,我們可以看到,這款存算芯片的設計合作方包括北美Sunnyvale、北京、上海三地的達摩院和西安紫光國芯。幕后大佬包括了達摩院的謝源教授和紫光國芯的CEO任奇偉。該存算芯片的吞吐率能效達到184QPS/W,單位面積存儲密度為64Mb/mm^2,使用了基于3D混合鍵合(3D Hybrid Bonding)近存計算技術(shù),將邏輯單元與DRAM單元鍵合在一起。

“馮·諾伊曼架構存儲和計算分離的模型,已無(wú)法滿(mǎn)足人工智能應用的需求,計算存儲一體化將突破AI算力瓶頸?!边@是達摩院判斷的2020十大科技趨勢中的技術(shù)趨勢之一。AI技術(shù)的快速發(fā)展,使得算力需求呈爆炸式增長(cháng)。雖然多核(例如CPU)/眾核(例如GPU)并行加速技術(shù)也能提升算力,但在后摩爾時(shí)代,存儲帶寬制約了計算系統的有效帶寬,芯片算力增長(cháng)步履維艱。巨大的算力需求與實(shí)際算力有限增長(cháng)之間的矛盾,將問(wèn)題根源指向了·諾依曼架構存算分離的局限性。由于計算與存儲分離,在計算的過(guò)程中就需要不斷通過(guò)總線(xiàn)交換數據,將數據從內存讀進(jìn)CPU,計算完成后再寫(xiě)回存儲。這一運轉方式讓馮·諾依曼架構無(wú)法適應新型計算的大算力需求。分析顯示,數據從內存傳輸到計算單元需要的功耗大約是計算本身的200倍,真正用于計算的時(shí)間和功耗占比大大降低。為了從根本上解決馮·諾依曼架構瓶頸,就必須使用將計算和存儲合二為一的存算技術(shù)。
基于SeDRAM的近存計算技術(shù)


達摩院存算芯片的內存單元采用了異質(zhì)集成嵌入式DRAM(SeDRAM),擁有超大帶寬、超大容量等特點(diǎn),片上內存帶寬可高達37.5GB/s/mm^2。達摩院存算芯片所使用的SeDRAM就是堆疊嵌入式DRAM(Stacked Embedded DRAM)。在以往的HBM使用硅中介層(interposer)和微凸塊(microbump)來(lái)增加邏輯到內存接口的I/O連接數量,以在高數據速率下提供高帶寬。然而,進(jìn)一步提高每引腳數據速率需要HBM和復雜且耗電的PHY電路。而且TSV 和中介層連接具有較大的電阻和電容,從而導致高功耗。在基于SeDRAM的存算芯片中,AI電路和外圍電路,包括控制、I/O和DFT,被分立到一個(gè)邏輯芯片,并通過(guò)混合鍵合堆疊在存儲陣列芯片上方,混合鍵合使用 Cu到Cu直接熔合鍵合。DFT模塊則被設計為邏輯芯片中的 IP,用于為陣列芯片執行BISR(內置自修復)。

作為線(xiàn)路后端(BEOL)互連工藝的延伸,混合鍵合比微凸塊和TSV的寄生電容小很多。因此,邏輯到存儲器接口的功耗也可以降低40%。混合鍵合的PIN間距尺寸為3μm,相反,microbump的間距約為50μm,TSV的間距約為6μm。與使用微凸塊和TSV技術(shù)的HBM相比,使用混合鍵合技術(shù)的SeDRAM可以達到 110,000/mm^2的最大通孔密度。僅就帶寬而言,基于混合鍵合技術(shù)的SeDRAMHBM效率更高。當然,我們也看到,達摩院的這顆芯片僅僅是使用了近存計算技術(shù),就已經(jīng)獲得了顯著(zhù)的性能,如果使用更先進(jìn)的存算技術(shù),則會(huì )產(chǎn)生更大的技術(shù)躍遷。
存算芯片的數據流架構


數據流架構是這顆芯片的另一個(gè)特色。達摩院研發(fā)設計了基于數據流的定制化加速器架構,對推薦系統端到端進(jìn)行加速,包括匹配、粗排序、神經(jīng)網(wǎng)絡(luò )計算、細排序等任務(wù)。如數據流架構圖所示,節點(diǎn)(Node Cluster)是構建整個(gè)架構的基本模塊,每個(gè)檢點(diǎn)的微架構包括多個(gè)存儲塊和一個(gè)處理核心。(例如權重存儲和輸入數據存儲)底層電路結構采用了同構設計,所有節點(diǎn)都可以靈活配置,每個(gè)節點(diǎn)有點(diǎn)像多處理器片上系統。整個(gè)計算流程分為多輪(Round)。一輪可以進(jìn)一步分為兩個(gè)子輪。在計算子輪期間,存儲在其本地緩沖區中的輸入特征和神經(jīng)權重被傳送到處理數組中以進(jìn)行計算。在每個(gè)通信子輪中,節點(diǎn)轉發(fā)其輸出特征,簇(Cluster)之間以循環(huán)方式交換存儲的數據。通過(guò)這種近存計算(基于SeDRAM)和數據流架構的耦合,可以大大減少訪(fǎng)問(wèn)外部?jì)却娴拇螖?,提升整體計算能效和性能。以搜索推薦為例,這一場(chǎng)景對內存帶寬、功耗、時(shí)延等方面有很高的要求,如果用傳統計算來(lái)實(shí)現,系統性能不易提高,但用存算的方式就能解決這些問(wèn)題,同時(shí)降低成本。在實(shí)際推薦系統應用中,該芯片相對于傳統CPU計算系統可以達到10倍以上性能提升和300倍的能效提升。



存算技術(shù)路線(xiàn)的演進(jìn)


目前存算技術(shù)在按照以下路線(xiàn)在演進(jìn):查存計算(Processing With Memory):GPU中對于復雜函數就采用了這種計算方法,是早已落地多年的技術(shù)。存儲芯片內部的存儲單元完成查表計算操作,存儲單元和計算單元完全融合,沒(méi)有一個(gè)獨立的計算單元。近存計算(Computing Near Memory):典型代表包括AMD的Zen系列CPU和達摩院本次發(fā)表的存算芯片。計算操作由位于存儲區域外部的獨立計算芯片/模塊完成。這種架構設計的代際設計成本較低,適合傳統架構芯片轉入。存內計算(Computing In Memory):典型代表是Mythic、閃憶、知存、九天睿芯。計算操作由位于存儲芯片/區域內部的獨立計算單元完成,存儲和計算可以是模擬的也可以是數字的。這種路線(xiàn)適合算法固定的場(chǎng)景算法計算,目前主要用于語(yǔ)音等輕算力場(chǎng)景。

邏輯存儲(Logic In Memory):通過(guò)在內部存儲中添加計算邏輯,直接在內部存儲執行數據計算,這種架構數據傳輸路徑最短,同時(shí)能滿(mǎn)足大模型的計算精度要求。典型代表包括TSMC(在2021 ISSCC發(fā)表)和千芯。在達摩院前期的測試中,這顆存算芯片(目前還僅是近存計算)已經(jīng)被證明能夠在阿里推薦系統中發(fā)揮極大的應用價(jià)值。可以看到,由于存算技術(shù)本身的高能效和大算力特點(diǎn),可以打破傳統計算架構的“存儲墻”問(wèn)題。這次近存架構在數據中心推薦系統中的應用還只是小試牛刀。存算技術(shù)在海量數據計算場(chǎng)景中擁有天然的優(yōu)勢,將在云計算、自動(dòng)駕駛、元宇宙等場(chǎng)景擁有廣闊的發(fā)展空間。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: ISSCC

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>