存算一體技術(shù)是什么?發(fā)展史、優(yōu)勢、應用方向、主要介質(zhì)

01 什么是存算一體
存算一體(Computing in Memory)是在存儲器中嵌入計算能力,以新的運算架構進(jìn)行二維和三維矩陣乘法/加法運算。
存算一體技術(shù)概念的形成,最早可以追溯到上個(gè)世紀70年代。隨著(zhù)近幾年云計算和人工智能(AI)應用的發(fā)展,面對計算中心的數據洪流,數據搬運慢、搬運能耗大等問(wèn)題成為了計算的關(guān)鍵瓶頸。在過(guò)去二十年,處理器性能以每年大約55%的速度提升,內存性能的提升速度每年只有10%左右。結果長(cháng)期下來(lái),不均衡的發(fā)展速度造成了當前的存儲速度嚴重滯后于處理器的計算速度。在傳統計算機的設定里,存儲模塊是為計算服務(wù)的,因此設計上會(huì )考慮存儲與計算的分離與優(yōu)先級。但是如今,存儲和計算不得不整體考慮,以最佳的配合方式為數據采集、傳輸和處理服務(wù)。這里面,存儲與計算的再分配過(guò)程就會(huì )面臨各種問(wèn)題,而它們主要體現為存儲墻、帶寬墻和功耗墻問(wèn)題。


02 存算一體發(fā)展史
1969年,斯坦福研究所的Kautz等人提出了存算一體計算機的概念。但受限于當時(shí)的芯片制造技術(shù)和算力需求的匱乏,那時(shí)存算一體僅僅停留在理論研究階段,并未得到實(shí)際應用。
為了打破馮諾依曼計算架構瓶頸,降低“存儲-內存-處理單元”過(guò)程數據搬移帶來(lái)的開(kāi)銷(xiāo),學(xué)術(shù)界和工業(yè)界嘗試了多種方法。其中比較直接的方法是近存計算,減少內存和處理單元之間的路徑,如通過(guò)3D封裝技術(shù)實(shí)現3D堆疊,將多層DRAM堆疊而成的新型內存,能提供更大的內存容量和內存帶寬。此外,Intel和Micron合作開(kāi)發(fā)的基于PRAM存儲介質(zhì)的3D Xpoint屬于堆疊型內存,旨在縮短片上存儲與內存之間的路徑。但上述方案并沒(méi)有改變數據存儲與數據處理分離的問(wèn)題,并不能從根本上解決馮諾依曼計算架構瓶頸。近年來(lái),隨著(zhù)半導體制造技術(shù)的突飛猛進(jìn),以及AI、元宇宙等算力密集的應用場(chǎng)景的崛起,為存算一體技術(shù)提供新的制造平臺和產(chǎn)業(yè)驅動(dòng)力。2010年,惠普實(shí)驗室的Williams教授團隊用憶阻器實(shí)現簡(jiǎn)單布爾邏輯功能。2016年,美國加州大學(xué)圣塔芭芭拉分校(UCSB)的謝源教授團隊提出使用RRAM構建存算一體架構的深度學(xué)習神經(jīng)網(wǎng)絡(luò )(PRIME)。相較于傳統馮諾伊曼架構的傳統方案,PRIME可以實(shí)現功耗降低約20倍、速度提升約50倍,引起產(chǎn)業(yè)界廣泛關(guān)注。隨著(zhù)人工智能等大數據應用的興起,存算一體技術(shù)得到國內外學(xué)術(shù)界與產(chǎn)業(yè)界的廣泛研究與應用。在2017年微處理器頂級年會(huì )(Micro 2017)上,包括英偉達、英特爾、微軟、三星、加州大學(xué)圣塔芭芭拉分校等都推出了他們的存算一體系統原型。
03 存算一體的優(yōu)勢
存算一體的優(yōu)勢是打破存儲墻,消除不必要的數據搬移延遲和功耗,并使用存儲單元提升算力,成百上千倍的提高計算效率,降低成本。
存算一體屬于非馮諾伊曼架構,在特定領(lǐng)域可以提供更大算力(1000TOPS以上)和更高能效(超過(guò)10-100TOPS/W),明顯超越現有ASIC算力芯片。除了用于A(yíng)I計算外,存算技術(shù)也可用于感存算一體芯片和類(lèi)腦芯片,代表了未來(lái)主流的大數據計算芯片架構。存算一體技術(shù)的核心優(yōu)勢包括:
- 減少不必要的數據搬運。(降低能耗至1/10~1/100)
使用存儲單元參與邏輯計算提升算力。(等效于在面積不變的情況下規?;黾佑嬎愫诵臄担?/span>
04 存算一體的市場(chǎng)驅動(dòng)力
目前,存算一體的商業(yè)驅動(dòng)力主要源于A(yíng)I和元宇宙算力的需求、并行計算在深度學(xué)習的廣泛應用。看向應用端,存算一體的市場(chǎng)發(fā)展驅動(dòng)卻是非常強烈的。
以數據中心為例,百億億次(E級)的超級計算機成為各國比拼算力的關(guān)鍵點(diǎn),為此美國能源部啟動(dòng)了“百億億次計算項目(Exascale Computing Project)”;中國則聯(lián)合國防科大、中科曙光和國家并行計算機工程技術(shù)研究中心積極開(kāi)展相關(guān)研究,計劃于推出首臺E級超算。但要想研制E級超算,科學(xué)家面臨的挑戰之中首當其沖的就是功耗過(guò)高問(wèn)題。以現有技術(shù)研制的E級超算功率高達千兆瓦,需要一個(gè)專(zhuān)門(mén)的核電站來(lái)給它供電,而其中50%以上的功耗都來(lái)源于數據的“搬運”,本質(zhì)上就是馮·諾依曼計算機體系結構計算與存儲的分離設計所致。基于神經(jīng)網(wǎng)絡(luò )的人工智能的興起,大算力高能效比的存內計算獲得了廣泛關(guān)注。在神經(jīng)網(wǎng)絡(luò )運算中,其運算權重固定,一般僅“輸入”是實(shí)時(shí)產(chǎn)生,因此可以將權重存在片上存儲器,等外部“輸入”進(jìn)入后再進(jìn)行高能效的存內計算。同時(shí),隨著(zhù)存算一體技術(shù)的進(jìn)步,通過(guò)存內計算和存內邏輯,已經(jīng)可以完成32位以上的高精度計算,普遍適用于從端到云的各類(lèi)計算需求。此外,新型存儲器的出現也帶動(dòng)了存算一體技術(shù)的發(fā)展,為存算一體技術(shù)升級方向提供可能。其中,阻變憶阻器RRAM使用等效器件電阻調制來(lái)實(shí)現數據存儲,可以實(shí)現更高的計算密度。新型存儲器與存算一體技術(shù)的結合,形成了新一代的算力元素,有望推動(dòng)下一階段的人工智能發(fā)展。
05 存算一體技術(shù)分類(lèi)
在馮諾伊曼架構中,計算單元與內存是兩個(gè)分離的單元。計算單元根據指令從內存中讀取數據,在計算單元中完成計算和處理,完成后再將數據存回內存。
在這個(gè)過(guò)程中,存儲器與處理器之間數據交換通路窄,以及由此引發(fā)的高能耗形成兩大難題,在存儲與計算之間筑起一道“存儲墻”。能耗方面,大部分能耗在數據搬運過(guò)程中產(chǎn)生,數據搬運功耗是計算功耗的1000倍。而數據搬運速度方面,AI運算需1PB/s,但DRAM 40GB-1TB/s 都遠達不到要求。
06 技術(shù)應用方向
AI和大數據計算
存算一體被多家技術(shù)趨勢研究機構確定為今后的科技趨勢。存算一體是突破AI算力瓶頸和大數據的關(guān)鍵技術(shù)。因為利用存算一體技術(shù),設備性能不僅能夠得到提升,其成本也能夠大幅降低。通過(guò)使用存算一體技術(shù),可將帶AI計算的中大量乘加計算的權重部分存在存儲單元中,在存儲單元的核心電路上做修改,從而在讀取的同時(shí)進(jìn)行數據輸入和計算處理,在存儲陣列中完成卷積運算。由于大量乘加的卷積運算是深度學(xué)習算法中的核心組成部分,因此存內計算和存內邏輯非常適合人工智能的深度神經(jīng)網(wǎng)絡(luò )應用和基于A(yíng)I的大數據技術(shù)。感存算一體集傳感、儲存和運算為一體構建感存算一體架構,解決馮諾依曼架構的數據搬運的功耗瓶頸,同時(shí)與傳感結合提高整體效率。在傳感器自身包含的AI存算一體芯片上運算,來(lái)實(shí)現零延時(shí)和超低功耗的智能視覺(jué)處理能力?;赟RAM模數混合的視覺(jué)應用存內計算神經(jīng)擬態(tài)芯片僅在檢測到有意義的時(shí)間才會(huì )進(jìn)行處理,大幅降低能耗。類(lèi)腦計算類(lèi)腦計算(Brain-inspired Computing)又被稱(chēng)為神經(jīng)形態(tài)計算(Neuromorphic Computing)。是借鑒生物神經(jīng)系統信息處理模式和結構的計算理論、體系結構、芯片設計以及應用模型與算法的總稱(chēng)。近年來(lái),科學(xué)家們試圖借鑒人腦的物理結構和工作特點(diǎn),讓計算機完成特定的計算任務(wù)。目的是使計算機像人腦一樣將存儲和計算合二為一,從而高速處理信息。存算一體天然是將存儲和計算結合在一起的技術(shù),天然適合應用在類(lèi)腦計算領(lǐng)域,并成為類(lèi)腦計算的關(guān)鍵技術(shù)基石。由于類(lèi)腦計算屬于大算力高能效領(lǐng)域,因此針對云計算和邊緣計算的存算一體技術(shù),是未來(lái)類(lèi)腦計算的首選和產(chǎn)品快速落地的關(guān)鍵。
07 數字存算一體與模擬存算一體對比
存算一體的計算方式分為數字計算和多比特模擬計算。
數字存算一體主要以SRAM和RRAM作為存儲器件,采用先進(jìn)邏輯工藝,具有高性能高精度的優(yōu)勢,且具備很好的抗噪聲能力和可靠性。而模擬存算一體通常使用FLASH、RRAM、PRAM等非易失性介質(zhì)作為存儲器件,存儲密度大,并行度高,但是對環(huán)境噪聲和溫度非常敏感。例如Intel和NVIDIA的算力芯片,盡管也可采用模擬計算技術(shù)提升能效,但從未有一顆大算力芯片采用模擬計算技術(shù)。數字存算一體適合大算力高能效的商用場(chǎng)景,而模擬存算一體適合小算力、不需要可靠性的民用場(chǎng)景。
08 存算一體的存儲介質(zhì)對比
目前可用于存算一體的成熟存儲器有NOR FLASH、SRAM、DRAM、RRAM、MRAM等NVRAM。
早期創(chuàng )業(yè)企業(yè)所用FLASH屬于非易失性存儲介質(zhì),具有低成本、高可靠性的優(yōu)勢,但在工藝制程有明顯的瓶頸。SRAM在速度方面和能效比方面具有優(yōu)勢,特別是在存內邏輯技術(shù)發(fā)展起來(lái)之后具有明顯的高能效和高精度特點(diǎn)。DRAM成本低,容量大,但是速度慢,且需要電力不斷刷新。適用存算一體的新型存儲器有PCAM、MRAM、RRAM和FRAM等。其中憶阻器RRAM在神經(jīng)網(wǎng)絡(luò )計算中具有特別的優(yōu)勢,是除了SRAM存算一體之外的,下一代存算一體介質(zhì)的主流研究方向。目前RRAM距離工藝成熟還需要2-5年,材料不穩定,但RRAM具有高速、結構簡(jiǎn)單的優(yōu)點(diǎn),有希望成為未來(lái)發(fā)展最快的新型存儲器。從學(xué)術(shù)界和工業(yè)界的研發(fā)趨勢上看,SRAM和RRAM都是未來(lái)主流的存算一體介質(zhì)。
存儲器類(lèi)型 | 優(yōu)勢 | 不足 | 適合場(chǎng)景 |
SRAM(數字模式) | 能效比高,高速高精度,對噪聲不敏感,工藝成熟先進(jìn),適合IP化 | 存儲密度略低 | 大算力、云計算、邊緣計算 |
SRAM(模擬模式) | 能效比高,工藝成熟先進(jìn) | 對PVT變化敏感,對信噪比敏感,存儲密度略低 | 小算力、端側、不要求待機功耗 |
各類(lèi)NVRAM(包括RRAM/MRAM等) | 能效比高,高密度,非易失,低漏電 | 對 PVT變化敏感,有限寫(xiě)次數,相對低速,工藝良率尚在爬坡中 | 小算力、端側/邊緣Inference、待機時(shí)間長(cháng)的場(chǎng)景 |
Flash | 高密度低成本,非易失,低漏電 | 對 PVT變化敏感,精度不高,工藝迭代時(shí)間長(cháng) | 小算力、端側、低成本、待機時(shí)間長(cháng)的場(chǎng)景 |
DRAM | 高存儲密度,整合方案成熟 | 只能做近存計算,速度略低,工藝迭代慢 | 適合現有馮氏架構向存算過(guò)渡 |
09 存算一體的應用場(chǎng)景
存算一體芯片適用于各類(lèi)人工智能場(chǎng)景和元宇宙計算,如可穿戴設備、移動(dòng)終端、智能駕駛、數據中心等。
按算力大小劃分:1)針對端側的可穿戴等小設備,對算力的要求遠低于智能駕駛和云計算設備,但對成本、功耗、時(shí)延、開(kāi)發(fā)難度很敏感。端側競品眾多,應用場(chǎng)景碎片化,面臨成本與功效的難題。存算一體技術(shù)在端側的競爭力影響約占30%。(例如arm占30%,降噪或ISP占40%,AI加速能力只占30%)2)針對云計算和邊緣計算的大算力設備,是存算一體芯片的優(yōu)勢領(lǐng)域。存算一體在云和邊緣的大算力領(lǐng)域的競爭力影響約占90%。邊緣端存算一體芯片在邊緣端具有高算力、低功耗、高性?xún)r(jià)比的優(yōu)勢。而針對智能駕駛、數據中心等大算力應用場(chǎng)景,在可靠性、算力方面有較高要求云計算市場(chǎng)玩家相對集中。各家有各家的算法和生態(tài)細節,芯片售價(jià)較高。存算一體芯片以其高能效大算力優(yōu)勢有望另辟蹊徑搶占云計算市場(chǎng)。
10 總結
存算一體已經(jīng)被知名研究機構和產(chǎn)業(yè)方確定為下一代技術(shù)趨勢之一。
目前國內外存算一體企業(yè),都是剛剛起步階段,差距尚不大。存算一體芯片在設計層面是創(chuàng )新的,沒(méi)有成熟的方法借用。存算一體是計算系統和存儲系統的整合設計,比標準模擬IP和存儲器IP更更復雜,依賴(lài)于多次存儲器流片而積累的經(jīng)驗,需要創(chuàng )始團隊有充分的存儲器量產(chǎn)經(jīng)驗和技術(shù)路線(xiàn)認知。目前行業(yè)主要兩類(lèi)路徑,一類(lèi)是從小算力1TOPS開(kāi)始往上走,解決的是音頻類(lèi)、健康類(lèi)及低功耗視覺(jué)終端側應用場(chǎng)景,AI落地的芯片性能以及功耗問(wèn)題。另一類(lèi)主要是針對大算力場(chǎng)景>100TOPS,解決大算力問(wèn)題,在無(wú)人車(chē)、泛機器人、智能駕駛,云計算領(lǐng)域提供高性能大算力和高性?xún)r(jià)比的產(chǎn)品。由于云計算和智能駕駛需求多樣,且各大廠(chǎng)的算法和生態(tài)有明顯的差異化,因此這些領(lǐng)域都有比較好的成長(cháng)空間。隨著(zhù)AI技術(shù)的加速落地,和元宇宙技術(shù)對于算力的大量需求,存算一體技術(shù)會(huì )不斷進(jìn)步,成為繼CPU、GPU架構之后的算力架構“第三極”。來(lái)源:算力基建
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。