<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 存內計算，不確定的未來(lái)

存內計算，不確定的未來(lái)

發(fā)布人：旺材芯片時(shí)間：2023-12-14 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

最近，Semiengineering發(fā)布了一篇專(zhuān)家討論文章，分享了他們關(guān)于A(yíng)I和SRAM的不確定未來(lái)。

首先，在問(wèn)到人們是否會(huì )致力于縮小 SRAM 的尺寸嗎？考慮到物理定律，這是否可能？

Alphawave Semi首席技術(shù)官 Tony Chan Carusone表示，人們一直承諾會(huì )有改進(jìn)，但趨勢是 SRAM 的擴展速度比邏輯慢。這意味著(zhù)要么架構發(fā)生變化，要么 SRAM 消耗給定芯片的比例越來(lái)越大。我們可能會(huì )看到兩者。您可以更改層次結構、更改位置、更改用于防止瓶頸的內存類(lèi)型。這是一種解決方案。但將會(huì )有大量的技術(shù)研發(fā)，比如自下而上的壓縮 SRAM 的解決方案。

Quadric首席營(yíng)銷(xiāo)官Steve Roddy也認同，通過(guò)改變核心技術(shù)你能做的只有這么多。在標準 SoC 中，它是經(jīng)典的 6T SRAM，這種情況已經(jīng)存在 30 到 40 年了。人們已經(jīng)嘗試過(guò)各種類(lèi)似 3T cell的東西，但存在可靠性、可制造性和可設計性問(wèn)題，例如如何使用它進(jìn)行測試。某些市場(chǎng)，例如汽車(chē)市場(chǎng)，當您獲得更容易出錯或對阿爾法粒子敏感的cell時(shí)，就會(huì )感到恐慌。也許你無(wú)法在汽車(chē)中安裝巨型推理機，因為汽車(chē)存在可靠性和功能安全問(wèn)題。所有這些事情都必須考慮在內。各種內存層成為架構師需要使用的工具包。

在問(wèn)到為什么 SRAM 的縮小速度比邏輯慢時(shí)？

西門(mén)子 EDA的內存技術(shù)專(zhuān)家Jongsin Yun說(shuō)， SRAM 的微縮滯后于邏輯收縮，主要是由于最新技術(shù)中嚴格的設計規則。過(guò)去，我們對 SRAM 有單獨的設計規則，這使我們能夠比基于邏輯晶體管的設計縮小更多尺寸。然而，當我們轉向更小尺寸的節點(diǎn)時(shí)，保持這種區別變得越來(lái)越具有挑戰性?，F在，SRAM 正在遵循越來(lái)越多的邏輯設計規則，并且與基于邏輯晶體管的設計相比，進(jìn)一步縮小存儲器的優(yōu)勢并不明顯。

除此之外，存儲器的大小也很重要，因為這種設計在芯片上重復了數百萬(wàn)次，從而影響了芯片的成本。然而，當我們近年來(lái)從較低的技術(shù)遷移時(shí)，好處被稀釋了，因為我們最終會(huì )花更多的錢(qián)遷移到較低的技術(shù)節點(diǎn)，而不是縮小 SRAM 內存大小的好處。這是我們在努力提高 AI 芯片中 SRAM 密度時(shí)面臨的主要挑戰。

而在問(wèn)到縮小晶體管尺寸會(huì )導致漏電流，人們又將如何應對時(shí)？

Jongsin Yun接著(zhù)說(shuō)，技術(shù)遷移的主要漏電優(yōu)勢來(lái)自降低 VDD 電平和采用新材料，例如晶體管氧化物中的高 k 材料，以改善柵極漏電，從而提高功率效率。然而，VDD 縮放已在 0.7 至 0.8 電壓范圍附近達到飽和點(diǎn)，這意味著(zhù)我們不再能夠從電壓降低中獲得額外的好處，并且其他泄漏水平也保持相對不變。如果我們繼續增加 SRAM 的密度并繼續采用更新的技術(shù)以在芯片中添加更多晶體管，我們就需要更多的電量來(lái)支持芯片運行。

例如，AMD首席執行官蘇姿豐（Lisa Su）預測，到2035年，我們將使用核電站一半的能源來(lái)運行一臺超級計算機。這是一個(gè)巨大的能源，我們正朝著(zhù)不可持續的方向前進(jìn)。需要采取一些措施來(lái)提高芯片的能耗。最近的 AMD 芯片減少了邏輯面積并填充了更多核心，同時(shí)保持內存密度相同。這可以通過(guò)減小邏輯面積來(lái)降低邏輯操作頻率。然而，它還允許系統通過(guò)將內核數量加倍而獲得額外的吞吐量來(lái)完成類(lèi)似的工作負載，從而實(shí)現適度的權衡，但能效方面獲得顯著(zhù)提升。

眾所周知，最近存內計算很熱，當中SRAM是其中的重點(diǎn)之一。那么在近內存計算或內存計算中，SRAM將發(fā)揮什么作用？我們會(huì )在商業(yè)市場(chǎng)上看到內存計算嗎？

Steve Roddy回應道，芯片初創(chuàng )公司已經(jīng)多次嘗試將模擬內存計算商業(yè)化，特別是乘法函數。在機器學(xué)習中，有大量的矩陣乘法和卷積。通過(guò)談?wù)搱D像很容易概念化。3 x 3 卷積正在圍繞三個(gè)最近的鄰居進(jìn)行計算。因此，使用 1 x 1、3 x 3、9 x 9，您可以擴大要計算的范圍。它非常適合您可以在存儲單元中完成此操作的想法。通過(guò)模擬，您可以即時(shí)訪(fǎng)問(wèn)并且可以集成電壓等。但實(shí)際上，這些東西都沒(méi)有實(shí)現。大量風(fēng)險資金（數億美元）投入到了從未見(jiàn)過(guò)世面的解決方案中，主要是因為它成為了一個(gè)分區問(wèn)題。

如果你說(shuō)，“我將在內存本身中構建某種奇怪的非數字計算”，根據定義，你已經(jīng)說(shuō)過(guò)，“我將用單獨的技術(shù)開(kāi)發(fā)出一個(gè)單獨的芯片，而我的一般計算引擎將運行純數字芯片，而其他一些引擎將在該存儲芯片中運行?，F在你對算法進(jìn)行了非常嚴格的劃分，這造成了很大的限制。您必須擁有這個(gè)Goldilocks網(wǎng)絡(luò )，其中計算可以保留在模擬芯片本地，然后才必須返回到主要代碼完成執行的通用芯片。

如果您的手機配備高通應用處理器（與其他公司不同的芯片），并且您想在 Zoom 通話(huà)期間實(shí)時(shí)運行面部美化算法，您該怎么做？如何同步軟件的執行？算法每年都變得更加復雜，而數據科學(xué)家并沒(méi)有放慢他們的創(chuàng )新速度。Transformer 是新事物，就像 ChatGPT 的視覺(jué) Transformer 一樣，由于來(lái)回傳輸量非常復雜。假設您已經(jīng)部署了一些用于卷積的內存計算。你永遠不會(huì )將視覺(jué)轉換器映射到它，因為你會(huì )花掉等待數據在兩種不同類(lèi)型的芯片之間來(lái)回傳輸的時(shí)間。那么，SRAM 中的純內存計算有什么不同的、深奧的和分區的嗎？那永遠不會(huì )發(fā)生。

如果您可以將其構建為可在 SoC 上的已編譯 SRAM，那么現在您所說(shuō)的是不同的東西，但現在您必須擁有一個(gè) 6T 模擬單元，并內置某種其他模擬設備。它必須是與放置在其旁邊的大型 GPU 著(zhù)色器引擎產(chǎn)生的噪音隔離開(kāi)來(lái)，因此這也成為一個(gè)問(wèn)題。如何構建芯片，使得這里的 10,000 個(gè) MAC 不會(huì )將噪聲注入到您嘗試編譯的敏感模擬電路中？這似乎是一個(gè)站不住腳的問(wèn)題。大約 3 億美元的風(fēng)險投資已經(jīng)付諸東流，而且還沒(méi)有人能夠實(shí)現量產(chǎn)。

Chan Carusone也表示，由于 Steve 所描述的限制，大多數理性興趣都集中在將這種技術(shù)用于某些低功耗或利基邊緣推理類(lèi)型的應用。我毫不懷疑潛在的影響。但現在的關(guān)鍵是為這項技術(shù)找到一個(gè)有足夠數量、足夠市場(chǎng)潛力的應用，以證明這種專(zhuān)門(mén)為其量身定制的硬件解決方案是合理的。這就是為什么我們看到這個(gè)想法已經(jīng)存在了很長(cháng)時(shí)間，但仍在等待它產(chǎn)生重大影響的機會(huì )。

Yun對這種觀(guān)點(diǎn)表示贊同，他指出，很多新技術(shù)如果沒(méi)有市場(chǎng)的大量需求就不會(huì )得到發(fā)展。即使我們已經(jīng)準備好部署一項有前途的技術(shù)，但在我們解決了所有風(fēng)險并收到使用它來(lái)創(chuàng )收的需求之前，它也不會(huì )付諸實(shí)踐。在內存計算（CiM）的情況下，我們可以減少數據傳輸，因為所有計算都發(fā)生在同一位置。這意味著(zhù)數據將保留在那里并進(jìn)行計算，而無(wú)需任何數據傳輸。這意味著(zhù)更快的處理速度和能源效率。

然而，為了實(shí)現這一目標，我們需要對周?chē)到y進(jìn)行各種調整，以適應這些新的數據處理方式。為了證明投資此類(lèi)變革的合理性，必須有強勁的需求。此外，不應該存在風(fēng)險較低的替代解決方案，因此我們可以放心地開(kāi)始研究它。

朝著(zhù)這個(gè)方向邁出一步的一個(gè)例子是利用 DRAM。當我們的AI芯片中有很多核心并行連接時(shí)，我們需要為處理器帶來(lái)寬帶寬的數據以提高效率。因此設計人員添加了大量連接到AI芯片的DRAM來(lái)傳輸海量數據。選擇 DRAM 是因為將數據存儲在 DRAM 中比 SRAM 更具成本效益。因此，每當核心數量增加時(shí)，就需要增加 DRAM 的通道數量?，F在我們的一些人工智能芯片有數千個(gè)核心。它需要越來(lái)越多的 DRAM 通道，很容易達到數百個(gè)引腳，盡管物理上不可能將太多通道連接到一個(gè)芯片中。我們必須解決這個(gè)瓶頸。

三星建議在 DRAM 本身內執行近內存計算。他們在 DRAM 中添加了一個(gè) MAC 單元來(lái)執行初始計算。之后，將數據發(fā)送至AI芯片進(jìn)行后續處理。這種方法距離近內存計算又近了一步。如果人們看到死胡同，就會(huì )找到新的解決方案。如果有辦法緩解現有配置的問(wèn)題，人們傾向于保留現有設置以避免轉向新方法的風(fēng)險。

Chan Carusone則表示，DRAM 內存瓶頸是需要解決的關(guān)鍵挑戰，這就是 HBM 重要性日益增加的原因。HBM 有一個(gè)良好的路線(xiàn)圖，可以提供更高帶寬的內存接口。人們還討論了本質(zhì)上使用某種類(lèi)型的小芯片（即 HBM 到 DDR 轉換器）的潛力。這可能會(huì )在內存中引入另一個(gè)層次，其中有一些 HBM，也許還有一些稍微遠一點(diǎn)的 DDR。人們正在考慮以各種不同的方式解決這個(gè)內存瓶頸問(wèn)題。

Roddy則說(shuō)道，人們甚至試圖在數據科學(xué)層面上以數字方式解決內存瓶頸問(wèn)題。訓練顯然是非常昂貴的，如果你想訓練你的 1000 億參數的聊天機器人，這需要在你最喜歡的云服務(wù)上花費數百萬(wàn)美元的計算時(shí)間。人們已經(jīng)嘗試過(guò)，如果他們在訓練中的計算是浮點(diǎn)32（fp32），他們可以存儲到DDR和其他格式嗎？你有 bfloat、fp8 以及他們嘗試弄清楚的各種東西。幾年前對我來(lái)說(shuō)最簡(jiǎn)單的是 bfloat。你確實(shí)需要一個(gè) fp32 數字，截掉尾數的 16 位以下，然后把它扔掉，說(shuō)：“我真的不需要它?！?當我下次帶它回來(lái)訓練時(shí)，我會(huì )把它拿回來(lái)。很簡(jiǎn)單，就像“如何將 DDR 流量減少一半并加快整體訓練問(wèn)題的速度？” 這已經(jīng)演變成一大堆其他類(lèi)型的數字問(wèn)題，比如具有各種深奧格式的 fp8。他們都在努力應對大量數據的挑戰——用于全自動(dòng)駕駛或語(yǔ)言樣本的無(wú)數圖像，或者無(wú)論它是什么，都必須從計算轉移到內存，從內存轉移到計算。這是內存瓶頸和內存層次結構問(wèn)題，目前不是計算問(wèn)題。

來(lái)源：半導體行業(yè)觀(guān)察

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 存內計算

相關(guān)推薦

院士論壇：集成電路推動(dòng)處理器的發(fā)展歷程及未來(lái)展望

EDA/PCB 202403 處理器近存計算存內計算劉明院士 chiplet 芯粒 | 2024-03-17

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>