<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > 面向對稱(chēng)多核體系結構的FPGA仿真模型研究及應用

面向對稱(chēng)多核體系結構的FPGA仿真模型研究及應用

作者：時(shí)間：2017-06-05 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

隨著(zhù)元器件制造工藝的不斷進(jìn)步，單片上可集成的晶體管數急劇增加。納米工藝將使單芯片中晶體管密度達到每平方厘米包含百億至千億。2010年已出現集成度超過(guò)10億支晶體管的高性能CPU(Intel的Polaris)，2020年將達到70億。因此，單片多核、眾核等體系結構以其豐富的計算資源，且處理器核或計算簇的數量根據應用計算量和并行度的需求可擴展的特性，成為體系結構研究領(lǐng)域的一個(gè)重要方向。

在芯片設計中，需要花費極大的人力和物力用于測試和驗證，而其中還有很大一部分測試工作必須等到芯片樣片出產(chǎn)后才能進(jìn)行，這嚴重影響了芯片的開(kāi)發(fā)周期和設計成本。軟件模擬器可以對各種規模的處理器進(jìn)行時(shí)鐘精確模擬，但其模擬精度受限于建模的精度，且隨著(zhù)系統規模的增大和建模精度的提高，軟件模擬的時(shí)間急劇增加直至不可接受。FPGA仿真為芯片設計的測試和驗證提供了一個(gè)很好的解決方案，它具有建造運行和成品幾乎一樣快的工作原型硬件的能力，同時(shí)又具備可編程和快速可重構的靈活性，能夠更加精準地模擬系統仿存、I／O等行為，因此FPGA仿真能極大降低芯片研發(fā)的固有風(fēng)險，縮短產(chǎn)品的開(kāi)發(fā)周期。將被仿真的體系結構稱(chēng)為目標系統，將由FPGA構成的仿真平臺則稱(chēng)為仿真系統。在仿真系統的設計中，其仿真規模嚴重受限于FPGA芯片的容量，在面向多核、眾核這類(lèi)具有高擴展性的體系結構仿真時(shí)，問(wèn)題更為明顯。若采用更大容量的FPGA或利用多片FPGA仿真，將面臨FPGA開(kāi)發(fā)板重設計和多片FPGA互連通信等問(wèn)題。隨著(zhù)研究的深入，系統會(huì )越來(lái)越復雜，這會(huì )造成研究成本和設計復雜度越來(lái)越高。因此，如何最大化片上資源的利用率，增大FPGA的仿真規模成為處理器設計和體系結構研究中的一個(gè)重要問(wèn)題。

本文提出了一種面向對稱(chēng)體系結構的FPGA仿真模型，該模型的核心設計思想是：分時(shí)復用仿真系統中的一個(gè)單元來(lái)仿真目標系統中多個(gè)對稱(chēng)單元的行為，從而利用較少的硬件資源完成系統仿真，提高FPGA的利用率。

本文引用地址：http://dyxdggzs.com/article/201706/348980.htm

1 對稱(chēng)多核體系結構FPGA仿真模型

對稱(chēng)多核如SMP(Symmetry Multi-Processor)體系結構中，通常包含多個(gè)對稱(chēng)的處理器核或計算核心，這里統稱(chēng)為計算核。計算核占據了多核體系結構的主要硬件開(kāi)銷(xiāo)，且對稱(chēng)多核體系結構的硬件仿真平臺FPGA資源消耗隨計算核數目成線(xiàn)性增加。這里提出的對稱(chēng)多核體系結構FPGA仿真模型，解耦合計算核數目與系統硬件開(kāi)銷(xiāo)的線(xiàn)性關(guān)系，其核心設計思想是：在構建仿真系統時(shí)，使用一個(gè)與目標系統中單個(gè)計算核等同的處理單元，稱(chēng)為虛擬計算單元VAU(Virtual Arithmetic Unit)代替所有的對稱(chēng)計算核，通過(guò)分時(shí)復用VAU實(shí)現一個(gè)計算單元虛擬多個(gè)計算核的行為。

圖l中的左圖是當前具有對稱(chēng)結構的多核體系結構模型抽象，n個(gè)對稱(chēng)的計算核通過(guò)特定的互連結構連接，其連接關(guān)系由目標處理器的工作模式?jīng)Q定；右圖是本文提出的仿真模型?？梢钥闯?，仿真系統中采用一個(gè)VAU代替了目標系統中所有對稱(chēng)的處理單元PU。在對目標系統進(jìn)行仿真時(shí)，計算頁(yè)控制器VAUC(VAU Controller)控制1個(gè)VAU分時(shí)復用的方式工作，虛擬多個(gè)PU并行執行。分時(shí)的粒度與處理單元之間的耦合度相關(guān)。虛擬計算單元將目標系統中并行執行模式轉變?yōu)榇袌绦械姆绞竭M(jìn)行仿真，以時(shí)間換取空間，減少系統中計算資源的消耗。BS(Backup Storage)用于存儲VAU虛擬各PU執行時(shí)的中間結果。

2 仿真系統執行模式

2．1 多核／眾核體系結構仿真系統執行模式

對稱(chēng)多核處理器中處理單元之間的耦合度不同，使得對應的仿真系統的執行模式也不一樣。多核／眾核體系結構通常采用粗粒度耦合執行的方式。如圖2(a)所示．多個(gè)處理單元之間相互比較獨立，其同步和通信通常處于任務(wù)級，即多個(gè)處理單元間的通信和同步的次數遠小于它們執行的指令數。圖中PUi和PUj之間有一次通信，PUi、PUj和PUk之間有一次同步。對應的仿真系統的執行模式如圖2(b)所示，VAU先對PUi進(jìn)行仿真，執行到與通信點(diǎn)時(shí)，將PUi的執行信息導入BS，然后VAU對PUi進(jìn)行仿真，執行到與通信點(diǎn)時(shí)，將PUj的執行信息導入BS，將PUi的執行信息由BS導入VMU，對PUi的后續行為進(jìn)行仿真，以此類(lèi)推，如圖2所示，箭頭每穿過(guò)中線(xiàn)一次，表示計算頁(yè)切換一次仿真對象，指向下的箭頭表示VMU的信息導入BS，指向上的箭頭表示BS中的信息導出至VMU。為了減少現場(chǎng)切換的次數，對兩個(gè)PU通信時(shí)的執行過(guò)程進(jìn)行優(yōu)化，如圖2(c)所示，VAU仿真PUi執行至通信點(diǎn)時(shí)，切換至PUj進(jìn)行仿真，只有在PUj遇到其他同步或通信時(shí)，才進(jìn)行現場(chǎng)切換，否則VAU一直對PUj進(jìn)行仿真，直至PUj執行結束。PUj執行到與通信點(diǎn)時(shí)，PUj將通信數據發(fā)送至網(wǎng)絡(luò )緩沖，并寫(xiě)入PUi對應的存儲空間，如圖2(c)中虛線(xiàn)所示。

2．2 SIMD體系結構仿真系統執行模式

SIMD體系結構的處理單元之間是緊密耦合的，所有處理單元的執行過(guò)程都是嚴格同步的，即同一時(shí)鐘周期內每個(gè)處理單元都對不同的數據進(jìn)行完全同樣的操作，如圖3(a)所示。

在SIMD體系結構仿真系統中，必須在邏輯上保持這種完全同步的執行模式。本文采用的方式是，一條指令流出之后，讓它在指令流水線(xiàn)中保持n個(gè)時(shí)鐘周期(可以在連續的n個(gè)時(shí)鐘內都發(fā)射同一條指令)，VAU在這n個(gè)周期內分別對各處理單元對應的數據進(jìn)行處理。若將n個(gè)時(shí)鐘周期看作系統的工作周期，則n個(gè)數據是在同一工作周期內被處理，如圖3(b)所示。這樣則在邏輯上保持SIMD的執行模式。

3 仿真系統評估

本文的目標系統如圖4(a)所示。它由多個(gè)計算節點(diǎn)以Torus片上網(wǎng)絡(luò )連接構成，其計算節點(diǎn)數目可以根據應用需求進(jìn)行擴展。對應的仿真系統如圖4(b)所示。在仿真系統中，采用一個(gè)虛擬計算節點(diǎn)(VAU)代替目標系統中的p個(gè)計算節點(diǎn)，圖4(b)以p=4為例，展示了仿真系統的結構。目標系統中p個(gè)計算節點(diǎn)的計算操作都由VAU以圖2的工作模式完成。VAU中包含一個(gè)現場(chǎng)保存存儲器(context backup)，用于保存目標系統中p個(gè)計算節點(diǎn)的中間結果。contextbackup的容量為每個(gè)計算節點(diǎn)中本地存儲器容量的p倍，這樣，context backup就有足夠的能力存儲p個(gè)計算節點(diǎn)的中間結果，從而減少與外部存儲器的數據交換，減少VAU的停頓時(shí)間。

采用FPGA EP2S180(擁有143 520 ALUT，相當于18萬(wàn)邏輯門(mén))實(shí)現了多種結構(計算節點(diǎn)的數目不同)的目標系統和基于仿真模型的仿真系統，并利用相應的硬件綜合工具Quartus分析仿真系統的FPGA資源開(kāi)銷(xiāo)。系統采用包含1個(gè)cluster的MASA流處理器作為計算節點(diǎn)。為更好地驗證仿真模型，流處理器中采用功能裁剪的cluster，如圖4所示，cluster中僅包含3個(gè)計算單元和1個(gè)I／O單元，并相應降低指令和數據存儲器的容量。在仿真系統中，VAU中的processor為流處理器中的核心計算部件，context backup代替了片上存儲部件，其容量為SRF的p倍。該實(shí)驗的目的是分析所提出的仿真模型對仿真系統的硬件資源消耗和仿真速度的影響。

3．1 資源消耗分析

圖5是目標系統和仿真系統的FPGA資源消耗統計。由于布局布線(xiàn)的需求，FPGA芯片的資源使用率最高通常只能達到70％～80％。圖5中“×”標識表示當前配置超出EP2S180的仿真能力?？梢钥闯?，在不采用仿真優(yōu)化技術(shù)時(shí)，EP2S180可仿真的最大規模目標系統為24個(gè)計算節點(diǎn)?；诒疚牡姆抡婺Ｐ?，當p值等于4時(shí)，EP2S180的仿真能力提高至64個(gè)節點(diǎn)；當p值等于8時(shí)，其仿真能力提高至96個(gè)節點(diǎn)。當p值增大時(shí)，其仿真能力可進(jìn)一步提升。實(shí)驗結果表明，本文提出的仿真模型能夠增大FPGA芯片可仿真系統的規模。

3．2 仿真速度分析

本文采用矩陣乘運算，分別在8、16、32個(gè)節點(diǎn)的目標系統和仿真系統上執行，測試二者的仿真速度。目標系統和仿真系統的工作頻率為75 MHz。圖6展示了二者的執行時(shí)間。

可以看出，仿真系統的執行時(shí)間大于目標系統。其時(shí)間增量主要是由于仿真系統將目標系統中多個(gè)processor并行處理的任務(wù)移植到一個(gè)VAU上串行執行造成。仿真系統沒(méi)有改變目標系統的數據傳輸路徑和模式，因此，數據傳輸的時(shí)間并沒(méi)有增加。另外，由于VAU虛擬的p個(gè)pro-cessor共享了存儲空間，仿真系統中消除了p個(gè)processor之間的數據傳輸時(shí)間。雖然仿真系統相對于目標系統執行時(shí)間有所增加，但其時(shí)間增量處于秒級。相對于緩慢的軟件模擬器，并綜合考慮仿真模型對FPGA仿真規模帶來(lái)的好處，因此認為該仿真模型帶來(lái)的仿真時(shí)間增量是可以接受的。

4 結束語(yǔ)

本文提出了面向對稱(chēng)多核體系結構的FPGA仿真模型，以及基于該模型的多核／眾核、SIMD體系結構的執行模式。相對于軟硬件聯(lián)合仿真方法，該仿真模型減少了軟硬件協(xié)同邏輯并避免了設計復雜的軟件劃分算法。實(shí)驗結果表明，面向對稱(chēng)多核體系結構的FPGA仿真模型能有效地減少仿真系統FPGA資源的需求，增大FPGA的仿真規模，并且其帶來(lái)的仿真時(shí)間增量是可接受的。但該仿真模型主要是面向對稱(chēng)體系結構，而不適用于異構多核系統等非對稱(chēng)結構。

關(guān)鍵詞： FPGA仿真模型 執行模式 體系結構

評論

相關(guān)推薦

多傳感器融合系統特點(diǎn)及體系結構

工控自動(dòng)化多傳感器融合體系結構智能化 | 2016-10-10

片上多處理器中Cache一致性協(xié)議的驗證

嵌入式系統體系結構片上多處理器 Cache一致性 | 2017-06-04

新型通信DSP平臺－StarPro 2000體系結構

liujt_ic | 2003-03-08

ARM體系結構與應用系統設計示例

資源下載 ARM7TDMI ARM 體系結構系統設計 S3C4510B | 2007-02-28

下一代網(wǎng)絡(luò )體系結構及相干問(wèn)題的研究

hpnet | 2003-06-24

MP920伺服系統在汽車(chē)柔性焊接生產(chǎn)線(xiàn)中的應用研究

設計方案伺服控制系統柔性焊接生產(chǎn)線(xiàn) 體系結構 | 2015-08-16

車(chē)聯(lián)網(wǎng)通用應用平臺研究及其典型應用分析

工控自動(dòng)化車(chē)聯(lián)網(wǎng) 物聯(lián)網(wǎng) 體系結構典型應用 | 2013-05-20

面向對稱(chēng)多核體系結構的FPGA仿真模型研究及應用

嵌入式系統 FPGA仿真模型執行模式體系結構 | 2017-06-05

MP920伺服系統在汽車(chē)柔性焊接生產(chǎn)線(xiàn)中的應用研究

汽車(chē)電子伺服控制系統柔性焊接生產(chǎn)線(xiàn) 體系結構 | 2017-06-07

請問(wèn)哪有關(guān)于各種硬件接口，體系結構，I/O指令等權威的技術(shù)文檔下載？？？

lingjiehe | 2005-04-14

ARM9相對于A(yíng)RM7的改進(jìn)

嵌入式系統體系結構 ARM 性能 | 2017-06-04

采用低功耗28nm FPGA降低系統總成本

嵌入式系統降低功耗 28nm 體系結構 | 2017-06-05

ARM體系結構與應用系統設計示例

icecool | 2004-11-07

嵌入式引導加載技術(shù)

資源下載 ARM BootLoader 操作系統體系結構 X86體系結構 BIOS Vxworks | 2007-02-09

MicroWindows體系結構及應用程序接口

設計方案 MicroWindows 體系結構應用程序接口 | 2009-09-29

變速器綜合性能試驗臺體系結構及控制軟件開(kāi)發(fā)

設計方案變速器綜合性能試驗臺體系結構控制軟件開(kāi)發(fā) | 2009-09-03

認識ARM體系結構的發(fā)展

嵌入式系統 ARM 體系結構多處理器 | 2013-12-05

MIPS64TM 體系結構(老站轉)

amine | 2002-05-28

2005年成都冬季ARM免費培訓班邀請函

資源下載周立功單片機 ARM 體系結構指令系統 LPC2000 | 2007-03-30

2005年沈陽(yáng)冬季ARM免費培訓班

資源下載周立功單片機 ARM 體系結構指令系統 LPC2000 | 2007-03-30

獨特的功能——只有MAX II CPLD能夠提供

嵌入式系統 MAX?II 體系結構 CPLD 獨特功能 | 2017-06-06

ARM體系結構

資源下載 ARM ARM處理器體系結構 | 2007-12-08

基于P2P的IPTV體系結構分析

嵌入式系統 P2P IPTV 體系結構 | 2013-09-29

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>