<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > EDA/PCB > 設計應用 > 前沿芯片架構的徹底變革

前沿芯片架構的徹底變革

作者:semiengineering 時(shí)間:2023-10-08 來(lái)源:半導體產(chǎn)業(yè)縱橫 收藏

芯片制造商正在利用演進(jìn)和革命性技術(shù),以相同或更低的功耗實(shí)現性能的數量級提高,這標志著(zhù)從制造驅動(dòng)設計到半導體架構師驅動(dòng)設計的根本轉變。

本文引用地址:http://dyxdggzs.com/article/202310/451213.htm

過(guò)去,大多數芯片都包含一到兩項前沿技術(shù),主要是為了跟上每隔幾年每個(gè)新工藝節點(diǎn)的光刻技術(shù)的預期改進(jìn)。這些改進(jìn)是基于行業(yè)路線(xiàn)圖,該路線(xiàn)圖要求隨著(zhù)時(shí)間的推移取得可預測但不顯著(zhù)的收益?,F在,隨著(zhù)大型語(yǔ)言模型和更多傳感器推動(dòng)的數據爆炸式增長(cháng),以及設計自己芯片的系統公司之間的競爭加劇,以及涉及人工智能的國際競爭日益激烈,芯片設計前沿的規則正在發(fā)生相當大的變化?,F在,漸進(jìn)式改進(jìn)與處理性能的巨大飛躍相結合,雖然這些改進(jìn)使計算能力和分析達到了一個(gè)全新的水平,但它們也需要一套全新的權衡。

這些轉變的核心是高度定制的,其中一些涉及在最先進(jìn)的工藝節點(diǎn)開(kāi)發(fā)的小芯片。并行處理幾乎是必然的,針對特定數據類(lèi)型和操作的加速器也是如此。在某些情況下,這些微型系統不會(huì )進(jìn)行商業(yè)銷(xiāo)售,因為它們?yōu)閿祿行奶峁┝烁偁巸?yōu)勢。但它們也可能包括其他商用技術(shù),例如處理核心、加速器、用于減少延遲的內存、近內存計算技術(shù),以及不同的緩存方案、共同封裝的光學(xué)器件和更快的互連。其中許多進(jìn)展多年來(lái)一直處于研究或擱置狀態(tài),現在正在全面部署。

谷歌研究院工程研究員兼機器學(xué)習系統副總裁 Amin Vahdat 在最近的 Hot Chips 2023 會(huì )議上的演講中指出,今天的芯片可以解決十年前無(wú)法想象的問(wèn)題,而機器學(xué)習將承擔「越來(lái)越多的任務(wù)」。

「我們需要改變對系統設計的看法,」Vahdat 說(shuō)?!高^(guò)去五、六、七年中計算需求的增長(cháng)令人震驚...... 雖然在算法稀疏性方面出現了許多創(chuàng )新,但當您查看圖 1 時(shí),它顯示了 10 倍每個(gè)模型的參數數量持續一年。我們還知道,計算成本隨著(zhù)參數數量的增加而超線(xiàn)性增長(cháng)。因此,我們?yōu)閼獙@一挑戰而必須構建的計算基礎設施類(lèi)型必須改變。值得注意的是,如果我們試圖在通用計算上做到這一點(diǎn),我們就不會(huì )達到今天的水平。我們在過(guò)去 50 或 60 年間開(kāi)發(fā)的傳統計算智慧已被拋棄?!?/span>

圖 1:機器學(xué)習計算的需求增長(cháng)。來(lái)源:Google 研究/Hot Chips 2023

然而,這并不意味著(zhù)老問(wèn)題消失了。功耗和散熱一直是設計團隊頭疼的問(wèn)題,并且隨著(zhù)處理速度和數量的增加,它們變得更加難以解決。在大約 3GHz 之后,由于熱密度更高且芯片無(wú)法散發(fā)熱量,僅僅調高時(shí)鐘頻率就不再是一個(gè)簡(jiǎn)單的選擇。雖然稀疏數據模型和軟硬件協(xié)同設計解決了在各種處理元件上運行的軟件的效率,以及每個(gè)計算周期處理更多數據的能力,但不再需要轉動(dòng)一個(gè)旋鈕來(lái)提高每瓦性能。

內存創(chuàng )新

然而,有許多小型和中型旋鈕,其中一些從未在生產(chǎn)系統中使用過(guò),因為沒(méi)有經(jīng)濟原因這樣做。隨著(zhù)數據的增加和架構創(chuàng )新的轉變,這些經(jīng)濟學(xué)發(fā)生了巨大的變化,這一點(diǎn)在今年的 Hot Chips 會(huì )議上顯而易見(jiàn)。

其中的選項包括內存/近內存處理,以及更接近數據源的處理。這里的問(wèn)題是,移動(dòng)大量數據需要大量的系統資源——帶寬、電力和時(shí)間——這對計算有直接的經(jīng)濟影響。一般來(lái)說(shuō),收集和處理的大部分數據都是無(wú)用的。例如,汽車(chē)或安全系統中的視頻輸入中的相關(guān)數據可能僅持續一兩秒,而可能需要數小時(shí)的數據進(jìn)行整理。對靠近源頭的數據進(jìn)行預處理,并使用人工智能來(lái)識別感興趣的數據,意味著(zhù)只需發(fā)送一小部分數據進(jìn)行進(jìn)一步處理和存儲。

三星首席工程師 Jin Hyun Kim 表示:「大部分能源消耗來(lái)自移動(dòng)數據?!顾赋隽巳N提高效率和提升績(jì)效的解決方案:

使用 HBM 進(jìn)行內存處理,實(shí)現極高的帶寬和功耗;

使用 LPDDR 對需要高容量的低功耗設備進(jìn)行內存處理;

使用 CXL 進(jìn)行近內存處理,以適中的成本實(shí)現極高的容量。

圖 2:移動(dòng)數據的資源成本。來(lái)源:三星/Hot Chips 2023

內存處理已經(jīng)在繪圖板上醞釀了很多年,直到最近才出現太大進(jìn)展。大型語(yǔ)言模型已經(jīng)極大地改變了經(jīng)濟學(xué),現在它變得更加有趣,大型內存供應商也沒(méi)有忽視這一點(diǎn)。

這一概念的新改進(jìn)是內存加速,這對于 AI/ML 的乘法累加 (MAC) 函數特別有用,因為需要快速處理的數據量呈爆炸式增長(cháng)。使用生成式預訓練 Transformer 3 (GPT-3) 和 GPT4,僅加載數據就需要大量帶寬。與此相關(guān)的挑戰有很多,包括如何有效地做到這一點(diǎn),同時(shí)最大限度地提高性能和吞吐量,如何擴展它以處理大型語(yǔ)言模型中參數數量的快速增加,以及如何建立靈活性以適應未來(lái)的變化。

SK hynix America 高級技術(shù)傳感經(jīng)理 Yonkwee Kwon 在 Hot Chips 2023 上的演講中表示:「我們一開(kāi)始的想法是將內存作為加速器。第一個(gè)目標是實(shí)現高效擴展。但擁有高性能也很重要。最后,我們設計的系統架構易于編程,同時(shí)最大限度地減少系統結構開(kāi)銷(xiāo),但仍然允許軟件堆棧實(shí)現靈活性?!?/span>

圖 3:MAC 和激活操作可以在所有庫中并行執行,權重矩陣數據來(lái)自庫,矢量數據來(lái)自全局緩沖區。MAC 和激活函數結果分別存儲在名為 MAC_REG 和 AF_REG 的鎖存器中。來(lái)源:SK 海力士/Hot Chips 2023

CPU 改進(jìn)

雖然內存的變化有助于減少需要移動(dòng)的數據量,但這只是難題的一小部分。下一個(gè)挑戰是加快主要處理元素的速度。做到這一點(diǎn)的一種方法是分支預測,它基本上預測下一個(gè)操作將是什么——幾乎就像互聯(lián)網(wǎng)搜索引擎的方式一樣。然而,與任何并行架構一樣,關(guān)鍵是保持各種處理元素充分運行,沒(méi)有空閑時(shí)間,以最大限度地提高性能和效率。

Arm 通過(guò)其 Neoverse V2 設計對這一概念進(jìn)行了新的改造,將分支與獲取分離。其結果是通過(guò)最大限度地減少停頓來(lái)提高效率,并從錯誤預測中更快地恢復。Arm 首席 CPU 架構師 Magnus Bruce 表示:「動(dòng)態(tài)饋送機制允許內核調節攻擊性,并主動(dòng)防止系統擁塞。這些基本概念使我們能夠推動(dòng)機器的寬度和深度,同時(shí)保持較短的管道以快速恢復錯誤預測?!?/span>

圖 4:Neoverse V2 核心的流程示意圖。來(lái)源:Arm/Hot Chips 2023

這里的不同之處在于,整個(gè)系統的改進(jìn)來(lái)自于架構在多個(gè)點(diǎn)的調整,而不是大規模的改變。例如,拆分分支預測器和獲取可以將分支目標緩沖區拆分為兩個(gè)級別,使其能夠處理多 50% 的條目。它還將預測器中存儲的歷史記錄增加了三倍,并將獲取隊列中的條目數量增加了一倍,從而顯著(zhù)提高了實(shí)際性能。為了使其有效,該架構還將 L2 緩存加倍,從而將使用過(guò)的數據塊預測和使用過(guò)的多次數據塊預測分開(kāi)。綜合各種改進(jìn),Neoverse V2 的性能是 V1 的兩倍,具體取決于它在系統中扮演的角色。

與此同時(shí),AMD 的下一代 Zen 4 核心由于微架構的改進(jìn),每周期指令數增加了約 14%,由于工藝擴展,在相同電壓下 5nm 下的頻率提高了 16%,由于微架構和技術(shù)的改進(jìn),功耗降低了約 60%。

與 Arm 一樣,AMD 也致力于改進(jìn)分支預測和獲取。AMD 研究員兼 Zen 4 首席架構師 Kai Troester 表示,由于更多的分支、每個(gè)周期更多的分支預測以及允許更多條目和每個(gè)條目更多操作的更大操作緩存,分支預測準確性得到了提高。它還添加了 3D V 高速緩存,將每個(gè)內核的 L3 高速緩存提升至高達 96 MB,并在 256 位數據路徑上使用兩個(gè)連續周期提供對 512 位操作的支持。簡(jiǎn)而言之,該設計增加了數據管道的大小,并盡可能縮短數據必須傳輸的距離。

圖 5:Zen 4 的兩種實(shí)現,包括每個(gè)芯片的計算核心數量是兩倍的 Zen 4c 以及分區的 L3 緩存。來(lái)源:AMD/2023 年熱門(mén)芯片

平臺架構系統

方面的主要趨勢之一是不斷增加的領(lǐng)域專(zhuān)用性,這對開(kāi)發(fā)適用于所有應用程序的通用處理器的舊模式造成了嚴重破壞?,F在的挑戰是如何提供本質(zhì)上的大規模定制,有兩種主要方法:通過(guò)硬件或可編程邏輯添加可編程性,以及開(kāi)發(fā)可互換部件的平臺。

英特爾推出了一個(gè)將小芯片集成到先進(jìn)封裝中的框架,該封裝利用其嵌入式多芯片互連橋來(lái)連接高速 I/O、處理器內核和內存。英特爾的目標是提供足夠的定制和性能來(lái)滿(mǎn)足客戶(hù)的需求,但交付這些系統的速度比完全定制的架構要快得多,并且結果可預測。

「這將是一個(gè)多,」英特爾院士兼首席至強架構師 Chris Gianos 說(shuō)道?!肝覀兛梢允褂眠@些小芯片構建結構,具有很大的靈活性。它們都只是互操作,它為我們提供了專(zhuān)門(mén)優(yōu)化產(chǎn)品核心的維度之一。我們將創(chuàng )建 E 核(超高效)的小芯片和 P 核(高性能)的小芯片?!?/span>

英特爾還創(chuàng )建了一個(gè)模塊化網(wǎng)狀結構來(lái)將各種組件連接在一起,以及一個(gè)支持 DDR 或 MCR 內存以及通過(guò) CXL 連接的內存的通用控制器。

圖 6:英特爾的可定制小。橙色框代表內存通道。來(lái)源:英特爾/Hot Chips 2023

神經(jīng)處理器、光學(xué)互連

即使對于 Hot Chips 會(huì )議來(lái)說(shuō),新方法和新技術(shù)的清單也是前所未有的。它表明業(yè)界正在多么廣泛地尋找增加功率和降低功率的新方法,同時(shí)仍然關(guān)注面積和成本。PPAC 仍然是焦點(diǎn),但不同應用程序和用例的權衡可能非常不同。

IBM 研究員 Dharmendra Modha 表示:「人工智能的運營(yíng)支出和資本支出正在變得不可持續?!顾a充道,「架構勝過(guò)摩爾定律?!?/span>

對于 AI/ML 應用來(lái)說(shuō),精度也至關(guān)重要。IBM 的設計包括一個(gè)支持混合精度的向量矩陣乘法器,以及具有 FP16 精度的向量計算單元和激活函數單元。此外,處理是在距離內存幾微米的范圍內完成的?!覆淮嬖谝蕾?lài)于數據的條件分支,」他說(shuō)?!笡](méi)有緩存未命中、沒(méi)有停頓、沒(méi)有推測執行?!?/span>

圖 7:IBM 的 North Pole 芯片,顯示了相互交織的計算(紅色)和內存(藍色)。來(lái)源:IBM/Hot Chips 2023

復雜芯片的一個(gè)關(guān)鍵挑戰不僅是在內存和處理器之間移動(dòng)數據,而且還在于芯片周?chē)臄祿苿?dòng)。片上網(wǎng)絡(luò )和其他互連結構簡(jiǎn)化了這一過(guò)程。硅光子學(xué)已經(jīng)使用了一段時(shí)間,特別是對于高速網(wǎng)絡(luò )芯片,并且光子學(xué)在機架中的服務(wù)器之間發(fā)揮著(zhù)作用。但是否或何時(shí)轉移到芯片層面仍不確定。盡管如此,這一領(lǐng)域的工作仍在繼續,根據芯片行業(yè)的大量采訪(fǎng),光子學(xué)受到了許多公司的關(guān)注。

Lightelligence 工程副總裁 Maurice Steinman 表示,他的公司已經(jīng)開(kāi)發(fā)出專(zhuān)門(mén)構建的基于光子學(xué)的加速器,其速度比 GPU 快 100 倍,而且功耗顯著(zhù)降低。該公司還開(kāi)發(fā)了片上光學(xué)網(wǎng)絡(luò ),更多的是使用硅中介層作為使用光子而不是電子連接小芯片的介質(zhì)。

「純電氣解決方案面臨的挑戰是,隨著(zhù)距離的衰減,僅在最近的鄰居之間進(jìn)行通信確實(shí)變得切實(shí)可行,」斯坦曼說(shuō)?!溉绻酒笊辖怯幸粋€(gè)結果需要與右下角通信,那么它需要遍歷很多跳。這給負責分配資源的軟件組件帶來(lái)了問(wèn)題,因為它需要考慮接下來(lái)的幾個(gè)棋步以避免擁塞?!?/span>

圖 8:片上光網(wǎng)絡(luò )顯示光子集成電路 (PIC)、電氣集成電路 (EIC),使用平面柵格陣列 (LGA) 基板。來(lái)源:Lightelligence/Hot Chips 2023

可持續性、可靠性和未來(lái)

隨著(zhù)所有這些變化,另外兩個(gè)問(wèn)題也出現了。一是可持續性。隨著(zhù)更多的數據由更多的芯片處理,挑戰甚至將集中在能源消耗上,更不用說(shuō)減少碳足跡了。更多更高效的設備并不一定會(huì )消耗更少的電力,而且制造所有這些設備都需要能源。

一段時(shí)間以來(lái),數據中心一直是人們關(guān)注的目標。十年前,普遍認同的統計數據是數據中心消耗了地球上所有發(fā)電量的 2% 到 3%。美國能源效率和可再生能源辦公室表示,數據中心約占美國總用電量的 2%。這些數字并不總是準確的,因為綠色能源有多種,制造和回收太陽(yáng)能電池板和風(fēng)車(chē)葉片也需要能源。但很明顯,消耗的能源量將隨著(zhù)數據的增長(cháng)而繼續增長(cháng),即使它沒(méi)有以相同的速度跟蹤。

Hot Chips 以及其他會(huì )議上的許多演講都將可持續發(fā)展作為目標。盡管基礎數據可能有所不同,但事實(shí)上,這是許多芯片制造商的企業(yè)強制要求,這一點(diǎn)意義重大。

第二個(gè)尚未解決的問(wèn)題是可靠性。許多新芯片設計也比前幾代芯片復雜幾個(gè)數量級。過(guò)去,主要問(wèn)題是基板上可以塞滿(mǎn)多少晶體管以及如何避免芯片熔化。如今,數據路徑和分區如此之多,散熱只是眾多因素之一。隨著(zhù)越來(lái)越多的數據被分區、處理、重新聚合和分析,結果的準確性和一致性可能更難以確定和保證,特別是當設備老化程度不同并以意想不到的方式交互時(shí)。

此外,谷歌研究院高級研究員兼高級副總裁 Jeff Dean 表示,模型正在從單一模態(tài)轉變?yōu)槎喾N模態(tài)(圖像、文本、聲音和視頻),從密集模型轉向稀疏模型?!竸?dòng)力、可持續性和可靠性確實(shí)很重要,」他說(shuō),并指出許多有關(guān)人工智能訓練和 CO2 排放的數據都具有誤導性?!溉绻闶褂谜_的數據,事情就不會(huì )那么可怕?!?/span>

結論

從純粹的技術(shù)角度來(lái)看,芯片架構的功耗、性能和面積/成本進(jìn)步與過(guò)去的進(jìn)步截然不同。創(chuàng )新無(wú)處不在,路線(xiàn)圖表明性能的持續提升、每次計算的能耗降低以及總擁有成本的降低。

多年來(lái),人們一直猜測建筑師可以極大地改進(jìn) PPAC 方程。Hot Chips 2023 讓我們一睹包含這些改進(jìn)的實(shí)際實(shí)現,創(chuàng )新顯然已經(jīng)交給了架構師?,F在最大的問(wèn)題是接下來(lái)會(huì )發(fā)生什么,這項技術(shù)將如何應用,以及這些變化會(huì )帶來(lái)哪些其他可能性。有了這種計算能力,似乎一切皆有可能。



關(guān)鍵詞: 芯片架構

評論


技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>