ITRS的工序路線(xiàn)圖與新一代嵌入式多核SoC設計
(7)支持混合模擬環(huán)境,將周期準確性和功能準確性結合起來(lái),降低軟件開(kāi)發(fā)的難度,可以提供性能預測與優(yōu)化。
(8)網(wǎng)絡(luò )系統增強、環(huán)境更重視軟件和虛擬化技術(shù)的參與性增強了多核硬件體系結構的作用。
為了滿(mǎn)足可擴展性、基于軟件解決方案并支持多種應用程序(從低端到高端)的需求,MC/AE的SoC網(wǎng)絡(luò )平臺包含了一些必要的功能模塊。
多核。在很多多核產(chǎn)品中,多個(gè)內核的頻率基本都超過(guò)1GHz。這個(gè)平臺的目的是要實(shí)現最高的周期執行指令數(IPC)。及單位面積內指定電量條件下達到最大的頻率。
多核還被設計用于減少高性能加速模塊的重復性與計算集中性操作,提高吞吐量或者新應用和服務(wù)條件下的處理周期數。
平臺中每個(gè)多核的內核都有自己的L2內部緩存。內部緩存通過(guò)一個(gè)專(zhuān)用通道直接連接CPU,可以實(shí)現非常高的應用性能。
內部緩存能夠滿(mǎn)足全速運行CPU的需求,比起按50%比例的“共享總線(xiàn)/共享緩存”體系結構可以大幅減少處理延遲。L2的內部緩存還能根據不同應用程序的需要,將緩存的內容在指令與數據之間進(jìn)行轉換,通過(guò)大幅減輕CPU負荷來(lái)提高總體性能。
另外,L2內部緩存還能減少芯片內和主內存上的流量,這能夠降低處理延遲,緩解其他用戶(hù)的帶寬壓力。
多線(xiàn)程和多處理器是密切相關(guān)的。當然,它們之間也是有區別的:多處理器共享唯一的內存和連接資源,而多線(xiàn)程處理器則除了共享這些資源外,還共享指令取出與問(wèn)題邏輯,這些可能是其他處理器的資源。
一些多線(xiàn)程編程和體系結構模型假定新的線(xiàn)程被分配到不同的處理器上,實(shí)現了很好的并行性。
分級緩存。認識到現有處理器結構依賴(lài)于共享緩存模型的局限之后,一種使用三級緩存分級技術(shù)的新方法被用于MC網(wǎng)絡(luò )平臺中。
L1緩存依然保留在內核之中。如前所述,L2緩存被實(shí)現為內部緩存,更靠近內核,這可以顯著(zhù)地提升系統性能。每個(gè)內核都有自己的內部L2緩存,可以提供:
(1)聚合的帶寬,不會(huì )受單個(gè)共享緩存的限制。
(2)通過(guò)與前端緩存競爭而降低延遲。
(3)內部緩存可以根據不同的性能、隔離性、優(yōu)先級和QoS(服務(wù)質(zhì)量)要求調整內核計算策略。
(4)私有緩存比起共享緩存更具獨立性,并可以作為資源管理的一個(gè)自然單元(例如可以臨時(shí)關(guān)閉以節約能源)。
此外,還有一些任務(wù)是共享緩存所擅長(cháng)的。例如處理器間通信與共享數據結果的計算處理。在這些情況下,我們還可以提供一個(gè)大容量的L3緩存。這種高帶寬、共享緩存技術(shù)讓沖突變得很少,可以提供快速的內存輸入輸出訪(fǎng)問(wèn)和加速器能力。
芯片內連接。芯片內連接與緩存分級技術(shù)一起工作,實(shí)現緩存兼容與并發(fā)訪(fǎng)問(wèn)。上述革新的內部緩存實(shí)現加上這種芯片內連接,能夠全面支持數據復制、改良中斷與全硬件兼容的跟蹤。
多核網(wǎng)絡(luò )平臺能夠充分利用芯片內連接的高度可擴展性和模塊化,這一多年積累的研究開(kāi)發(fā)結果可以實(shí)現多個(gè)內核之間的緩存兼容、并行與低延遲連接。
與多個(gè)內核、內存和外圍設備之間使用共享總線(xiàn)作為互連媒質(zhì)不同的是,這種芯片內連接技術(shù)可以減少總線(xiàn)仲裁與沖突,這是其他多核體系結構所面臨的嚴峻挑戰,因為會(huì )在系統中引入更多的流量。它就像一個(gè)網(wǎng)狀,允許并行的流量從其中任一點(diǎn)進(jìn)入或者退出系統,而不是只有一個(gè)進(jìn)出口點(diǎn)。
由于其天然的可擴展性,這種芯片內連接能夠在每個(gè)周期都實(shí)現多種、全面兼容的交易,可以很方便地擴展到支持更多的內核。芯片內連接還可以支持異構芯片組,從而充分發(fā)揮多核的作用,讓各種能耗和性能設計基礎的內核可以在一起協(xié)調工作,相互之間各盡其職、取長(cháng)補短。
可連接性。多核網(wǎng)絡(luò )平臺整合了各種網(wǎng)絡(luò )與I/O資源,這種設計可以支持很高的吞吐量。那些能夠為系統設計者提供各種可擴展、高性能的資源可以受到特殊關(guān)照。
SOC-MC/AE網(wǎng)絡(luò )平臺的接口與功能模塊
SOC-MC/AE網(wǎng)絡(luò )平臺支持各種接口,包括RGMII、XGMIII與SPI-412等接口控制器,以及一些高速接口,如PCI-X接口與串行RIO接口。
外圍接口。外圍設備和ROM可以通過(guò)各種外圍接口連接多核網(wǎng)絡(luò )平臺。這些端口是使用32位外圍I/O總線(xiàn)及可編程多功能輸入輸出(GPIO)信號的不同組合來(lái)創(chuàng )建的。
多核網(wǎng)絡(luò )平臺包含一些必要的標準總線(xiàn),例如由兩條雙向總線(xiàn)線(xiàn)路組成的標準I2C總線(xiàn)端口、串行數據(SD)線(xiàn)與串行時(shí)鐘(SCLK)線(xiàn)。
按需提供的加速引擎。按需提供的加速技術(shù)讓多核網(wǎng)絡(luò )平臺體系結構中的加速引擎在性能和靈活性方面達到了新的高度。這種異步、共享資源的體系結構可以提供低延遲、多任務(wù)處理,而不會(huì )引起線(xiàn)程切換超負荷。
按需提供的應用加速使得多核網(wǎng)絡(luò )平臺的性能優(yōu)勢超過(guò)了單核心的處理周期,可以降低能耗,減少硅的使用率,從而降低芯片制造成本。按需提供、高性能的加速引擎技術(shù)包括:
(1)支持深度封裝檢查和全面內容處理的模式匹配。
(2)解壓縮和壓縮能力,在使用時(shí)解壓、傳輸時(shí)壓縮。
(3)支持保密、完整與認證的加密安全機制。
(4)包轉換和流分類(lèi)的表查詢(xún)技術(shù)。
(5)數據分支資源管理,能有效地分配芯片內資源。
(6)包分發(fā)與隊列管理。
混合模擬環(huán)境。SOC-MC/AE網(wǎng)絡(luò )平臺需要全面的系統模擬模型,整合了周期準確性建模技術(shù)和功能性建模技術(shù)的混合機制,可以讓使用多核網(wǎng)絡(luò )平臺的客戶(hù)應用程序在軟件開(kāi)發(fā)、性能預測與優(yōu)化方面的難度大幅降低。
使用這種混合的模擬環(huán)境,能夠方便地在功能和周期準確性模型之間實(shí)現切換,開(kāi)發(fā)者可以在虛擬的多核網(wǎng)絡(luò )平臺上遷移和分割操作系統、中間件和應用程序,方便開(kāi)發(fā)、調試和基準測試,這甚至比使用實(shí)際產(chǎn)品還要方便。
這個(gè)環(huán)境可以進(jìn)行安全而便利的分割、并行、優(yōu)化系統和應用程序。軟件開(kāi)發(fā)人員可以使用“what if”模式來(lái)虛擬運行環(huán)境,在不受實(shí)際硬件條件約束的情況下調優(yōu)性能。這種混合模擬器為開(kāi)發(fā)者提供了硬件視圖,其主要特性包括:
(1)快速而實(shí)用的多核網(wǎng)絡(luò )平臺模型。
(2)詳細的多核網(wǎng)絡(luò )平臺周期準確性模型。
(3)包含了基礎架構和軟件開(kāi)發(fā)、代碼分割、調試、部署及虛擬化等工具的綜合包。
(4)不管是宏觀(guān)和微觀(guān),系統狀態(tài)都具有良好的可視性,方便觀(guān)察緩存和寄存器管道的狀態(tài)。
(5)執行軟件的運行時(shí)控制,包括斷點(diǎn)、分布和反向執行。
(6)可以重啟多個(gè)操作系統。
這種混合模擬器的一個(gè)重要優(yōu)點(diǎn)是能夠動(dòng)態(tài)地實(shí)現從高速功能性模式到普通的周期準確性模式之間的來(lái)回切換。
這使得軟件開(kāi)發(fā)人員可以在必要時(shí)快速重啟操作系統或者執行關(guān)鍵代碼,然后再切換到普通的周期準確性模式來(lái)分析特定范圍的數據,而無(wú)需等待很長(cháng)時(shí)間。
作為一個(gè)多核系統的開(kāi)發(fā)平臺,這種混合的模擬環(huán)境具有很好的靈活性與可擴展性,支持一些在操作系統或者應用程序中無(wú)需執行指令的獨占環(huán)境。軟件開(kāi)發(fā)人員能夠減少目標系統的開(kāi)發(fā)時(shí)間,從而全面提高其代碼的質(zhì)量。
MC/AE增強環(huán)境
MC/AE網(wǎng)絡(luò )平臺需要軟件工程師花費特別多的時(shí)間來(lái)考慮軟件體系結構的問(wèn)題。開(kāi)發(fā)多核處理器的性能潛力意味著(zhù)使用并行處理的能力,考慮到很大程度上同步的單核系統具有長(cháng)期而成功的歷史,這種轉變不是一時(shí)半會(huì )兒就能夠深入人心的。
網(wǎng)絡(luò )應用程序在一定程度上實(shí)現了包處理的并行性,同時(shí)網(wǎng)絡(luò )數據通道和控制平面之間的互操作也可以算作是另一種層面的并行。
這些并行性都是很容易想像的,而如果數據通道流超過(guò)了單CPU的能力,或者單內核不能提供足夠的控制平面響應時(shí),事情就會(huì )變得更加復雜了。負載均衡和在同一設備上實(shí)現非均衡/均衡混合多處理環(huán)境是一種嚴峻的挑戰,而多核網(wǎng)絡(luò )平臺就是被設計用來(lái)解決這些問(wèn)題的。
盡管從軟件架構上需要考慮任務(wù)的分發(fā),但多核網(wǎng)絡(luò )平臺提供的密集處理能力也可以讓硬件設計師想到將功能集中并重新分配,這能夠充分發(fā)揮多個(gè)CPU或者功能模塊的效用。
這些想法與在系統中引入新的服務(wù)和能力產(chǎn)生強烈的共鳴。不管是軟件還是硬件體系結構,都需要多核處理器具有良好的靈活性,也需要能夠幫助提升未來(lái)架構體驗的良好機制。
在SoC-MC/AE網(wǎng)絡(luò )平臺中,每一個(gè)內核都具有私有的L2緩存,這也被稱(chēng)為內部緩存。另外,平臺還裝備了按需提供的加速引擎,能夠滿(mǎn)足不同應用的需求。
盡管多核平臺被設計為能夠滿(mǎn)足很高的性能目標,但便于使用也是平臺定義的重要指標。在目前的多核實(shí)現中,一個(gè)明顯的障礙就是編程的效率和調試的便利性。下面是兩種假設的場(chǎng)景:
場(chǎng)景1:2007年主流內核個(gè)數為1,系統性能也是為單核系統設計。
在這種情況下,45nm工藝能夠將65nm工藝的系統性能提高到3.6倍,相當于使用3.7個(gè)65nm的內核。同樣,32nm工藝的系統性能可以達到13.5倍,相當于7.5個(gè)65nm的內核。這個(gè)性能曲線(xiàn)基本是線(xiàn)性的。
場(chǎng)景2:2007年主流內核個(gè)數為4,系統性能也是為4核系統設計。
在這種情況下,45nm工藝的系統性能可以達到65nm工藝的14.7倍。相當于10.9個(gè)65nm的內核。同樣,32nm工藝可以達到54倍系統性能,相當于30個(gè)65nm的內核。這也是線(xiàn)性增長(cháng)的。
SOC-MC/AE平臺的價(jià)值啟示
今后的網(wǎng)絡(luò )需求將會(huì )超越目前這種單核體系結構所能提供的操作頻率。增加內核數量(多核)可以提高性能(摩爾定律)。
但是在封閉空間內熱量管理的挑戰甚至超過(guò)了提高CPU頻率來(lái)提升性能的難度。因此,這需要求助于系統級芯片平臺所帶來(lái)的機會(huì )。
另外,還有很多亟待解決的問(wèn)題:總線(xiàn)帶寬與存儲量沖突、可擴展性問(wèn)題,更糟糕的是由于缺乏編程可視性而帶來(lái)處理周期浪費等問(wèn)題。
在SOC-MC/AE網(wǎng)絡(luò )平臺中添加加速引擎,能夠進(jìn)一步提升性能(廣義摩爾定律)。但是,為了與硬件需求相匹配,在軟件及模擬環(huán)境方面還需要更多的投資(超越摩爾定律)。
因此,SOC-MC/AE網(wǎng)絡(luò )平臺不只是為超級性能和提升能源效率而設計的,它還能快速而順利地幫助推進(jìn)多核處理器的發(fā)展,為業(yè)界提供一個(gè)可行的環(huán)境。
因此,多核、加速引擎和模擬增強環(huán)境,是變更網(wǎng)絡(luò )執行環(huán)境的三個(gè)重要組成部分,能夠提供可擴展的、可持續發(fā)展的性能,以滿(mǎn)足下一代高級應用程序及服務(wù)的需求。本文引用地址:http://dyxdggzs.com/article/151116.htm linux操作系統文章專(zhuān)題:linux操作系統詳解(linux不再難懂)
評論