面向對稱(chēng)體系結構的FPGA仿真模型研究
采用FPGA EP2S180(擁有143 520 ALUT,相當于18萬(wàn)邏輯門(mén))實(shí)現了多種結構(計算節點(diǎn)的數目不同)的目標系統和基于仿真模型的仿真系統,并利用相應的硬件綜合工具Quartus分析仿真系統的FPGA資源開(kāi)銷(xiāo)。系統采用包含1個(gè)cluster的MASA流處理器作為計算節點(diǎn)。為更好地驗證仿真模型,流處理器中采用功能裁剪的cluster,如圖4所示,cluster中僅包含3個(gè)計算單元和1個(gè)I/O單元,并相應降低指令和數據存儲器的容量。在仿真系統中,VAU中的processor為流處理器中的核心計算部件,context backup代替了片上存儲部件,其容量為SRF的p倍。該實(shí)驗的目的是分析所提出的仿真模型對仿真系統的硬件資源消耗和仿真速度的影響。
3.1 資源消耗分析
圖5是目標系統和仿真系統的FPGA資源消耗統計。由于布局布線(xiàn)的需求,FPGA芯片的資源使用率最高通常只能達到70%~80%。圖5中“×”標識表示當前配置超出EP2S180的仿真能力??梢钥闯?,在不采用仿真優(yōu)化技術(shù)時(shí),EP2S180可仿真的最大規模目標系統為24個(gè)計算節點(diǎn)?;诒疚牡姆抡婺P?,當p值等于4時(shí),EP2S180的仿真能力提高至64個(gè)節點(diǎn);當p值等于8時(shí),其仿真能力提高至96個(gè)節點(diǎn)。當p值增大時(shí),其仿真能力可進(jìn)一步提升。實(shí)驗結果表明,本文提出的仿真模型能夠增大FPGA芯片可仿真系統的規模。
3.2 仿真速度分析
本文采用矩陣乘運算,分別在8、16、32個(gè)節點(diǎn)的目標系統和仿真系統上執行,測試二者的仿真速度。目標系統和仿真系統的工作頻率為75 MHz。圖6展示了二者的執行時(shí)間。
可以看出,仿真系統的執行時(shí)間大于目標系統。其時(shí)間增量主要是由于仿真系統將目標系統中多個(gè)processor并行處理的任務(wù)移植到一個(gè)VAU上串行執行造成。仿真系統沒(méi)有改變目標系統的數據傳輸路徑和模式,因此,數據傳輸的時(shí)間并沒(méi)有增加。另外,由于VAU虛擬的p個(gè)pro-cessor共享了存儲空間,仿真系統中消除了p個(gè)processor之間的數據傳輸時(shí)間。雖然仿真系統相對于目標系統執行時(shí)間有所增加,但其時(shí)間增量處于秒級。相對于緩慢的軟件模擬器,并綜合考慮仿真模型對FPGA仿真規模帶來(lái)的好處,因此認為該仿真模型帶來(lái)的仿真時(shí)間增量是可以接受的。
4 結束語(yǔ)
本文提出了面向對稱(chēng)多核體系結構的FPGA仿真模型,以及基于該模型的多核/眾核、SIMD體系結構的執行模式。相對于軟硬件聯(lián)合仿真方法,該仿真模型減少了軟硬件協(xié)同邏輯并避免了設計復雜的軟件劃分算法。實(shí)驗結果表明,面向對稱(chēng)多核體系結構的FPGA仿真模型能有效地減少仿真系統FPGA資源的需求,增大FPGA的仿真規模,并且其帶來(lái)的仿真時(shí)間增量是可接受的。但該仿真模型主要是面向對稱(chēng)體系結構,而不適用于異構多核系統等非對稱(chēng)結構。
評論