芯片架構設計的新趨勢
來(lái)源:內容由半導體行業(yè)觀(guān)察(ID:icbank)編譯自semiengineering
制程微縮帶來(lái)的收益遞減,再加上普遍的連通性和數據的指數級增長(cháng),行業(yè)正在推動(dòng)芯片設計方式、預期功能以及完成速度的廣泛變化。
過(guò)去,性能、功率和成本之間的權衡主要由大型 OEM 在行業(yè)范圍的擴展路線(xiàn)圖范圍內定義。芯片制造商設計芯片以滿(mǎn)足這些 OEM 提出的狹窄規格。但隨著(zhù)摩爾定律的放緩,以及隨著(zhù)越來(lái)越多的傳感器和電子設備在各處生成更多數據,設計目標和實(shí)現這些目標的手段正在發(fā)生變化。一些最大的系統公司已經(jīng)在內部進(jìn)行芯片設計,以專(zhuān)注于特定的數據類(lèi)型和用例。與此同時(shí),傳統芯片制造商正在創(chuàng )建靈活的架構,這些架構可以重復使用并輕松修改以用于更廣泛的應用。
在這種新的設計方案中,需要處理數據的速度和結果的準確性可能會(huì )有很大差異。根據具體情況——例如,它是否將用于安全或任務(wù)關(guān)鍵型應用,或者它是否靠近可能產(chǎn)生熱量或噪音的其他組件——架構師可以權衡原始性能、每瓦性能和總擁有成本,包括可靠性和安全性。這反過(guò)來(lái)又決定了封裝的類(lèi)型、內存、布局以及需要多少冗余。它還增加了新的關(guān)注點(diǎn),例如跨系統的時(shí)鐘同步、封裝中組件的不同老化率,以及由于行業(yè)對各個(gè)部分如何組合在一起以及可能出現的問(wèn)題的了解不足而產(chǎn)生的未知數。
隨著(zhù)這些設計的推出,出現了一些用于定制的創(chuàng )新方法,以及一些一致的主題。
在最近的 Hot Chips 34 大會(huì )上,NVIDIA 高級首席工程師 Jack Choquette 預覽了該公司新的 800 億晶體管 GPU 芯片。新架構考慮了空間局部性,允許來(lái)自不同位置的數據由可用的處理元素處理,以及時(shí)間局部性,其中多個(gè)內核可以對數據進(jìn)行操作。目標是允許更多的塊對數據片段進(jìn)行同步或異步操作,以提高效率和速度。這與現有方法形成對比,在現有方法中,所有線(xiàn)程都必須等待其他數據在處理開(kāi)始之前到達。

圖 1:線(xiàn)程塊集群,允許在相鄰的多處理器上共同調度一些處理。資料來(lái)源:NVIDIA/Hot Chips 34
AMD 高級研究員 Alan Smith 在會(huì )議上同樣介紹了“workload-optimized compute architecture”。在 AMD 的設計中,為數據轉發(fā)和重用加寬了數據路徑。與 NVIDIA 的架構一樣,其目標是消除數據路徑的瓶頸、簡(jiǎn)化操作并提高各種計算元素的利用率。為了提高性能,AMD 不再需要不斷復制來(lái)備份內存,從而顯著(zhù)減少了數據移動(dòng)。
AMD 的新 Instinct 芯片包括一個(gè)靈活的高速 I/O 和一個(gè)連接各種計算元件的 2.5D elevated bridge。High-speed bridges則由英特爾首次通過(guò)其嵌入式多芯片互連橋接器 (EMIB) 商業(yè)化推出,用于使兩個(gè)或多個(gè)芯片充當一個(gè)芯片。Apple 使用了這種方法,橋接了兩個(gè)基于 Arm 的 M1 SoC 來(lái)創(chuàng )建其 M1 Ultra 芯片。

圖 2:AMD 的帶有扇出橋的多芯片方法。
資料來(lái)源:AMD/熱芯片
所有這些架構都比以前的版本更靈活,chiplet/tile 方法為大型芯片制造商提供了一種定制芯片的方式,同時(shí)仍為廣泛的客戶(hù)群提供服務(wù)。與此同時(shí),谷歌、Meta 和阿里巴巴等系統公司更進(jìn)一步,從頭開(kāi)始設計芯片,專(zhuān)門(mén)針對其數據類(lèi)型和處理目標進(jìn)行調整。
特斯拉的數據中心芯片架構就是一個(gè)很好的例子?!霸谌斯ぶ悄芨锩脑缙陔A段,計算需求大致符合摩爾定律,”特斯拉低壓和硅工程副總裁Peter Bannon在最近的臺積電技術(shù)研討會(huì )上發(fā)表演講時(shí)說(shuō)?!暗谶^(guò)去五年中,軌跡發(fā)生了明顯變化,計算需求每三四個(gè)月翻一番,因為人們已經(jīng)弄清楚如何訓練越來(lái)越大的模型,從而繼續提供越來(lái)越好的結果?!?/p>
Peter Bannon說(shuō),特斯拉設計團隊設定了擴大規模的目標,“對機器的尺寸沒(méi)有實(shí)際限制”?!爱敃r(shí)的想法是,‘如果機器對于特定型號來(lái)說(shuō)不夠大,我們就會(huì )把機器做大?!?我們希望能夠利用多個(gè)級別的并行性——訓練級別的數據和模型級別的并行性,以及訓練卷積和矩陣乘法時(shí)正在執行的固有操作中的并行性。我們希望它是一個(gè)完全可編程且靈活的硬件?!?/p>
不同之處
ASIC 一直是定制的,但在每個(gè)新的工藝節點(diǎn),成本都在上升,以至于只有智能手機或 PC 等最大量的應用程序才足以收回設計和制造成本。越來(lái)越多的系統公司通過(guò)使用他們內部設計的芯片來(lái)吸收不斷上漲的成本,并且他們希望將這些定制架構擴展到更長(cháng)的時(shí)間。
為了從這些設計中榨取更高的每瓦性能,他們還在針對特定軟件功能優(yōu)化芯片,以及軟件如何利用硬件——這是一個(gè)復雜且經(jīng)常迭代的過(guò)程,需要通過(guò)定期軟件更新進(jìn)行持續微調。例如,在數據中心的情況下,這些芯片可以提高每瓦性能并降低運行溫度,從而降低服務(wù)器機架供電和冷卻的電力成本。
還有其他考慮因素。其中:預計更多設備將作為多芯片或多設備系統的一部分,通常包括 AI/ML 的元素。
為了節省功耗和成本,設計團隊根據應用優(yōu)先考慮不同的功能,然后根據特定的設計目標將多個(gè)芯片封裝在一起或劃分單個(gè) SoC。
隨著(zhù)越來(lái)越多的芯片制造商采用小芯片方法,他們需要考慮混合使用關(guān)鍵和非關(guān)鍵數據路徑。這涉及從噪聲考慮到封裝中的芯片移位、由于這些封裝中不同材料導致的熱膨脹系數以及組件本身的工藝變化等方方面面。盡管 Arm、Synopsys(ARC 處理器)等公司以及越來(lái)越多的一些 RISC-V 供應商對他們的 IP 進(jìn)行了徹底的工作,但極端案例和潛在交互的數量正在增加。
所有這些都使設計、驗證和調試過(guò)程變得更加困難,并且如果數量和對異??赡艹霈F的位置的了解不足,就會(huì )在制造中產(chǎn)生問(wèn)題。這就解釋了為什么越來(lái)越多的 EDA、IP、測試/分析和安全公司開(kāi)始提供服務(wù)來(lái)補充內部設計團隊的工作。
瑞薩電子執行副總裁 Sailesh Chittipeddi 表示:“不再需要設計一個(gè) CPU 來(lái)為每個(gè)工作負載執行 x、y 和 z 函數,而無(wú)需考慮開(kāi)銷(xiāo)?!薄斑@就是為什么所有這些公司現在都變得更加垂直化。他們正在推動(dòng)他們需要的解決方案。這包括系統級別的人工智能。它包括電氣和機械特性之間的相互作用,直至您放置特定連接器的位置。它還推動(dòng)更多 CAD 公司涉足系統級支持和系統級設計?!?/p>
這種轉變正在越來(lái)越多的垂直市場(chǎng)中發(fā)生,從手機和汽車(chē)到工業(yè)應用,隨著(zhù)芯片制造商希望將其硬件定位于廣泛的新市場(chǎng),它正在推動(dòng)一波遠低于雷達的小型收購浪潮。例如,瑞薩在 6 月收購 Reality Analytics 的目的是為各種工業(yè)細分市場(chǎng)創(chuàng )建 AI 模型。
“這項技術(shù)可用于觀(guān)察系統中的振動(dòng)并預測特定部件何時(shí)會(huì )發(fā)生故障,”Chittipeddi 說(shuō)?!袄?,如果你看看采礦業(yè),如果鉆頭斷裂,可能會(huì )導致嚴重的問(wèn)題。我們可以將這些模型導入我們的 MCU,用于控制這些系統?!?/p>
誰(shuí)做什么
然而,特定領(lǐng)域的解決方案加大了 EDA 公司的壓力,要求他們找出可以自動(dòng)化的共性。使用在單個(gè)工藝節點(diǎn)開(kāi)發(fā)的平面芯片要容易得多。但隨著(zhù)越來(lái)越多的市場(chǎng)實(shí)現數字化——無(wú)論是汽車(chē)、工業(yè)、軍事/航空、商業(yè)還是消費者——他們的目標正變得越來(lái)越不同。
隨著(zhù)在不同工藝節點(diǎn)開(kāi)發(fā)的小芯片是為定制封裝開(kāi)發(fā)的,這種差異預計只會(huì )增加,定制封裝可能基于從扇出支柱到完整 3D-IC 實(shí)現的所有內容。在某些情況下,甚至可能有 2.5D 和 3D-IC 的組合,西門(mén)子 EDA 已將其標記為 5.5D。
對于 EDA 和 IP 公司來(lái)說(shuō),好消息是這顯著(zhù)增加了對仿真、仿真、原型設計和建模的需求。大型系統供應商也一直在向 EDA 供應商施壓,以使更多系統公司的設計流程自動(dòng)化,但沒(méi)有足夠的數量來(lái)保證這種投資。取而代之的是,系統公司已經(jīng)與 EDA 和 IP 公司聯(lián)系以提供專(zhuān)家服務(wù),從交易關(guān)系轉變?yōu)楦钊氲暮献骰锇殛P(guān)系,并讓 EDA 公司更深入地了解各種工具的使用方式以及在哪里使用可以孕育新機會(huì )的漏洞。
是德科技副總裁兼設計與仿真部總經(jīng)理 Niels Faché 表示:“許多新參與者的垂直整合程度更高,因此他們在內部做的更多?!薄叭藗儗ο到y級仿真的興趣要大得多,而且公司內部和公司之間對協(xié)作工作流的需求也在不斷增長(cháng)。我們還看到更多的設計迭代。所以你有一個(gè)開(kāi)發(fā)團隊,一個(gè)質(zhì)量團隊,并且你不斷地更新設計?!?/p>
對于為 OEM 設計芯片的芯片公司來(lái)說(shuō),這只是挑戰的一部分?!叭绻憧匆幌缕?chē)市場(chǎng),就會(huì )發(fā)現設計芯片組已經(jīng)不再是按要求設計了,”Faché 說(shuō)?!霸诔跏茧A段,芯片公司可能會(huì )使用該軟件構建參考設計,并根據其使用方式進(jìn)行設置。然后,OEM 將尋求優(yōu)化。這樣做是將合作推向傳統的食物鏈。例如,如果您正在開(kāi)發(fā)雷達芯片,那么它不僅僅是一個(gè)雷達子系統。它是更大技術(shù)堆棧背景下的雷達?!?/p>
該堆??赡馨ㄉ漕l封裝、天線(xiàn)和接收器,而 OEM 使用 EDA 構建無(wú)線(xiàn)電。
特定應用與通用
設計團隊面臨的一個(gè)巨大挑戰是更多的設計變得前置。不僅僅是創(chuàng )建芯片架構,然后在設計過(guò)程中解決細節,更多的問(wèn)題需要在架構級別解決。
Siemens Digital Industries Software執行副總裁 Joe Sawicki 表示:“曾經(jīng)有一次芯片公司出貨的芯片耗電量過(guò)多,而 OEM 對此并不滿(mǎn)意?!薄暗悴粫?huì )知道僅僅運行應用程序。人工智能使這個(gè)問(wèn)題變得更大,因為它不僅僅是軟件的問(wèn)題?,F在,您可以在其上運行所有這些推理。如果您不關(guān)心延遲,您可以在云中放置一個(gè)通用芯片,您只需與云通信并取回數據即可。但是,如果你有實(shí)時(shí)的東西,它需要立即響應,你就無(wú)法承受這種延遲并且你想要低功耗。所以,至少對于加速器,你想要定制設計?!?/p>
Synopsys的產(chǎn)品營(yíng)銷(xiāo)經(jīng)理 Gordon Cooper表示同意?!叭绻阍谑褂萌斯ぶ悄?,是 100% 的時(shí)間都在使用它,還是很高興擁有它?如果我只想說(shuō)我的芯片上有人工智能,也許我只需要使用 DSP 來(lái)做人工智能,”他說(shuō)?!坝幸粋€(gè)權衡,這取決于上下文。如果你想要 100% 的時(shí)間完全成熟的 AI,也許你需要添加外部 IP 或額外的 IP?!?/p>
人工智能面臨的一大挑戰是讓設備保持最新?tīng)顟B(tài),因為算法會(huì )不斷更新。如果設計是一次性的并且所有內容都針對一種或多種算法進(jìn)行了優(yōu)化,這將變得更加困難。因此,雖然架構需要在性能方面具有可擴展性,但它們也需要隨著(zhù)時(shí)間的推移以及系統中其他組件的上下文而具有可擴展性。
軟件更新會(huì )對時(shí)鐘造成嚴重破壞。Movellus首席執行官 Mo Faisal在 2022 年人工智能硬件峰會(huì )上的一次演講中表示:“你對芯片同步質(zhì)量所做的任何事情都會(huì )影響延遲、性能、功耗和上市時(shí)間?!痹絹?lái)越大的芯片 - 標線(xiàn)大小的芯片 - 您可以?xún)?yōu)化內核并確保它與軟件很好地配合。這是矩陣乘法、圖形計算,你并行投入的核心越多越好。然而,這些芯片現在正面臨挑戰。以前,這對英特爾和 AMD 的一兩個(gè)團隊來(lái)說(shuō)是個(gè)問(wèn)題,現在這是每個(gè)人的問(wèn)題?!?/p>
保持一切同步正在成為一個(gè)過(guò)程,而不是一個(gè)單一的功能?!澳憧赡苡胁煌墓ぷ髁?,”Faisal說(shuō)?!耙虼?,您可能只想為一個(gè)工作負載使用 50 個(gè)內核,而對于下一個(gè)工作負載,您希望使用 500 個(gè)內核。但是當你打開(kāi)接下來(lái)的 500 個(gè)內核時(shí),你最終會(huì )給電網(wǎng)施加壓力并導致下降?!?/p>
同時(shí)開(kāi)關(guān)噪聲也存在問(wèn)題。在過(guò)去,其中一些問(wèn)題可以通過(guò)冗余來(lái)解決。但在先進(jìn)節點(diǎn)上,該裕量增加了將電子移動(dòng)通過(guò)非常細的導線(xiàn)所需的時(shí)間和能量,這反過(guò)來(lái)又會(huì )產(chǎn)生電阻并增加熱耗散。因此,每個(gè)新節點(diǎn)的權衡變得更加復雜,并且包中不同組件之間的交互是相加的。
“如果你看一下 5G,這對汽車(chē)來(lái)說(shuō)意味著(zhù)與數據中心或消費者不同的東西,” Cadence產(chǎn)品營(yíng)銷(xiāo)集團總監 Frank Schirrmeister在接受采訪(fǎng)時(shí)說(shuō)?!八鼈兌加胁煌难舆t吞吐量。人工智能/機器學(xué)習也是如此。這取決于域。然后,因為一切都是超連接的,它不僅在一個(gè)域內。所以它本質(zhì)上需要同一芯片的許多變體,這就是異構集成變得有趣的地方。SoC 的整體解體派上用場(chǎng)了,因為您可以根據 binning 之類(lèi)的內容執行不同的性能級別。但它本身不再是一種設計,因為某些規則不再適用?!?/p>
結論
整個(gè)芯片設計生態(tài)系統都在不斷變化,并且一直延伸到軟件。過(guò)去,設計團隊可以確保以高抽象級別編寫(xiě)的軟件可以運行良好,并且在每個(gè)新節點(diǎn)的引入都會(huì )有定期的改進(jìn)。但是隨著(zhù)規模下降的好處以及隨后需要更快處理的數據的增加,現在每個(gè)人都必須更加努力地工作——他們必須與他們在過(guò)去的。
至少就功耗和性能而言,最好的前進(jìn)方式是使用定制或半定制架構為特定目的設計芯片。但這會(huì )產(chǎn)生一系列問(wèn)題,而這些問(wèn)題需要時(shí)間來(lái)解決。用于 2.5D 和 3D 設計的工具剛剛開(kāi)始推出,芯片制造商正在整理計劃,以使它們變得非常具體,或者足夠通用,以便能夠在多個(gè)設計中利用其架構。無(wú)論哪種方式,每個(gè)學(xué)科的工程師都需要開(kāi)始超越他們的關(guān)注領(lǐng)域,轉向芯片系統和系統系統。
未來(lái)是光明的,但也更具挑戰性。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
物聯(lián)網(wǎng)相關(guān)文章:物聯(lián)網(wǎng)是什么