一種面向多核DSP的小容量緊耦合快速共享數據池

作者：時(shí)間：2009-04-02 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

1. 引言

多核數字信號處理器（DSP）是近年來(lái)針對高性能嵌入式應用而出現的一類(lèi)多核微處理器（CMP）。相比傳統的單核處理器，多核處理器在提高并行處理能力的同時(shí)也需要更高的存儲帶寬和更靈活的存儲結構。便箋存儲器（SPM）是一種小容量的片上存儲器，具有全局地址空間，可以由訪(fǎng)存指令直接訪(fǎng)問(wèn)。SPM僅僅包含存儲陣列和譯碼邏輯，沒(méi)有Cache那樣復雜的Tag比較邏輯和替換策略，在電路面積和功耗方面比Cache更具優(yōu)勢。另外，SPM采用固定的存儲映射方式，沒(méi)有訪(fǎng)問(wèn)失效問(wèn)題，能夠保證單拍（或確定節拍）的訪(fǎng)問(wèn)時(shí)間，便于用戶(hù)顯式地管理和調度其中的數據，適合嵌入式實(shí)時(shí)計算的特點(diǎn)。

根據多核DSP的應用需求，并結合SPM的結構特征和共享存儲的編程優(yōu)勢，本文提出了一種面向多核DSP的快速共享數據緩沖池FSDP，對其進(jìn)行了設計實(shí)現和模擬分析。分析結果表明，FSDP對于DSP核間細粒度共享數據（例如某些全局變量、公共系數矩陣等）的傳輸具有很高的效率，相比類(lèi)似的VS-SPM結構能夠將程序性能提高37%，與傳統的共享數據Cache結合使用能夠將異構多核DSP的性能提高13%。

本文的組織結構如下。第2部分介紹了國內外的研究現狀，第3部分介紹了異構多核DSP的總體結構原型，第4部分詳細介紹了FSDP的組成結構、訪(fǎng)問(wèn)方法和同步機制。第5部分介紹了設計優(yōu)化方法，構建了關(guān)于最佳單體容量的分析模型。第6部分介紹了設計實(shí)現和模擬分析結果。最后一部分總結了全文。

2. 相關(guān)工作

近年來(lái)，國外學(xué)者在SPM領(lǐng)域已經(jīng)展開(kāi)了積極的研究。Banakar等人針對計算密集型應用，使用專(zhuān)用工具（CACTI）計算出了各種容量的SPM和Cache的面積和功耗，使用Trace模擬器進(jìn)行了性能對比。結果表明，同樣容量的SPM的平均功耗比Cache降低了40%。Issenin等人也認為，如果通過(guò)數據重用技術(shù)，將經(jīng)常使用的數據放在小容量的SPM中，用片內局部傳輸代替片外全局傳輸，不但可以節省約一半的功耗，而且大大提高了傳輸效率。Kandemir和Suhendra等人基于一種虛擬共享便箋式存儲器（VS-SPM）的多核處理器原型，如圖1所示。通過(guò)任務(wù)映射、調度、SPM劃分和數據分配等編譯優(yōu)化算法，提高片內數據重用性，減少不必要的片外訪(fǎng)存，其宣稱(chēng)的實(shí)驗結果能夠把嵌入式應用的性能提高80%。

這些已有的工作主要是從軟件的角度研究如何優(yōu)化SPM的存儲分配與管理，而且大部分是基于單核處理器的研究，對于多核處理器環(huán)境下SPM的體系結構研究還不夠充分。特別在共享存儲的方式下，必須根據實(shí)際應用中核間數據共享與傳輸的特點(diǎn)，研究速度快、結構靈活的SPM存儲結構。本文提出的FSDP采用多體并行和交叉訪(fǎng)問(wèn)的方式，訪(fǎng)問(wèn)延遲小，存取速度快；提供了硬件信號燈和軟件查詢(xún)兩種同步機制，同步開(kāi)銷(xiāo)低，編程使用靈活。

3. 異構多核DSP總體結構

圖1 異構多核DSP“SDSP”的總體結構

異構多核DSP“SDSP”的總體結構如圖1所示，它由四個(gè)精簡(jiǎn)的32位浮點(diǎn)DSP核與一個(gè)32位的RISC核構成。DSP核采用課題組自行研制的32位高性能浮點(diǎn)DSP“YHFT-DSP700”的精簡(jiǎn)內核。該DSP內核主頻300MHz，8流出超長(cháng)指令字（VLIW）結構。四個(gè)DSP內核共享存儲空間。每個(gè)DSP核具有私有的一級數據Cache（L1D）和一級指令Cache（L1P），共享二級Cache/SRAM（L2）和FSDP。FSDP與L1D處于同一個(gè)存儲層次，具有不可Cache的全局存儲空間，可以被四個(gè)DSP核的訪(fǎng)存指令直接訪(fǎng)問(wèn)。

RISC核采用開(kāi)放體系結構與源碼的LEON處理器。LEON是一款高度可配置的32位通用RISC處理器，兼容SPARC V8指令集，采用7級整數流水線(xiàn)，指令Cache和數據Cache分離。片上集成了AMBA 2.0總線(xiàn)，掛接存儲控制器、PCI模塊、CAN接口等外設模塊。

4. 快速共享數據緩沖池FSDP體系結構

FSDP是一個(gè)四通道共享存儲結構，每個(gè)DSP核對應一個(gè)通道，每個(gè)通道包括兩個(gè)大小相同的存儲體SAi和SBi（i=1,2,3,4）、存控邏輯和讀寫(xiě)隊列。四個(gè)通道依次順序編址，通過(guò)高速交叉開(kāi)關(guān)（Crossbar）構成整個(gè)共享數據緩沖池，如圖2所示。另外，FSDP采用了一組控制寄存器，通過(guò)公共的配置總線(xiàn)與四個(gè)DSP核相連，用于同步/互斥、狀態(tài)查詢(xún)、優(yōu)先級控制等操作。

圖2 FSDP的組成結構及其與DSP核的連接關(guān)系

FSDP采用多體并行交叉訪(fǎng)問(wèn)的機制，提供了“私有”和“共享”兩種工作模式，支持多個(gè)DSP核的并行訪(fǎng)問(wèn)與核間數據流的傳輸。FSDP基于釋放一致性共享存儲模型，為用戶(hù)提供了硬件自動(dòng)阻塞和軟件手工查詢(xún)兩種同步機制。多核DSP程序產(chǎn)生的中間結果、公共變量、系數常量、查找表等數據結構都可以通過(guò)FSDP實(shí)現快速的細粒度數據傳輸與交換。而大批量的全局數據和用戶(hù)程序則存放在片外存儲器中，通過(guò)兩級Cache進(jìn)行訪(fǎng)問(wèn)。下面，本文將詳細介紹FSDP的組成結構和關(guān)鍵技術(shù)。

4.1 帶旁路的讀寫(xiě)隊列與解耦的存控邏輯

為了緩存因訪(fǎng)問(wèn)沖突或同步失敗而被阻塞的讀/寫(xiě)訪(fǎng)問(wèn)，我們?yōu)槊總€(gè)DSP核分別設置了讀/寫(xiě)隊列，直接緩存各個(gè)DSP核Load/Store單元發(fā)出的訪(fǎng)問(wèn)請求。為了縮短訪(fǎng)問(wèn)延遲，我們?yōu)樽x/寫(xiě)隊列設置了旁路邏輯。當沒(méi)有訪(fǎng)問(wèn)沖突且核間同步握手成功時(shí)，讀寫(xiě)請求不需進(jìn)入讀寫(xiě)隊列，由旁路邏輯將請求直接發(fā)送給相應的存控邏輯。這一設計縮短了訪(fǎng)問(wèn)延遲，有效增強了FSDP的傳輸效率。下圖3給出了帶旁路的讀寫(xiě)隊列結構。為了加快地址譯碼速度，本文將地址譯碼邏輯和訪(fǎng)問(wèn)控制邏輯進(jìn)行了解耦處理，將譯碼器置于旁路邏輯之前，縮短控制邏輯的關(guān)鍵路徑，提高了FSDP的訪(fǎng)問(wèn)速度。

圖3 帶旁路的讀寫(xiě)隊列

4.2 雙模式操作與交叉訪(fǎng)問(wèn)

本文為FSDP設計了“私有”和“共享”兩種工作模式。

在私有模式下，任意DSP核DSP-i只能讀寫(xiě)與其對應通道內的兩個(gè)存儲體SAi和SBi（i=1,2,3,4），不能訪(fǎng)問(wèn)其他的通道；

在共享模式下，每個(gè)DSP核可以讀取另外三個(gè)通道的數據，但不能向其中寫(xiě)入數據。任意DSP核必須通過(guò)其對應通道的兩個(gè)存儲體與其他DSP核交換共享數據。

可見(jiàn)，在私有模式下，所有的存儲體都不存在訪(fǎng)問(wèn)競爭，訪(fǎng)問(wèn)速度快。在共享模式下，FSDP不存在多核寫(xiě)沖突的問(wèn)題，簡(jiǎn)化了維護數據一致性的硬件開(kāi)銷(xiāo)，提高了核間共享數據的傳輸速度，有利于提高嵌入式應用的實(shí)時(shí)性。

在任務(wù)流水的計算模式下，DSP核間的共享數據相繼構成“生產(chǎn)者-消費者”關(guān)系：前一個(gè)核的計算輸出直接作為下一個(gè)核的計算輸入。為了有效支持這種傳輸模式，我們在FSDP中采用了交叉訪(fǎng)問(wèn)的機制：

當“生產(chǎn)者”DSP-i向存儲體SAi寫(xiě)入第一塊共享數據之后，釋放該存儲體，轉而向SBi寫(xiě)入第二塊共享數據；

“消費者”DSP-j（j≠i）啟動(dòng)讀訪(fǎng)問(wèn)，從SAi讀出第一塊共享數據；

當這一過(guò)程完成后，雙方交叉，DSP-i釋放存儲體SBi，向SAi寫(xiě)入第三塊共享數據，DSP-j則從SBi讀出第二塊共享數據，依此類(lèi)推，直至傳輸完成。

因此，在寫(xiě)入第一塊共享數據之后，讀寫(xiě)操作就可以并行執行。當雙方的計算負載均衡，速度匹配的時(shí)候，DSP核之間可以進(jìn)行流水傳輸，同步等待延遲最小，傳輸效率達到最高。

4.3 釋放一致性模型與基于信號燈的快速同步機制

在共享存儲的釋放一致性（RC）模型中，同步操作包括“獲取”和“釋放”兩種操作，分別用于取得對共享存儲單元的獨占性訪(fǎng)問(wèn)權和解除這一訪(fǎng)問(wèn)權。參照基本的RC模型，本文為FSDP設計了一套簡(jiǎn)潔、高效的控制邏輯和同步機制。

首先，為每個(gè)存儲體設置3個(gè)“信號燈”寄存器，分別對應除本通道之外的其他3個(gè)DSP核，作為同步/互斥操作的硬件鎖?！靶盘枱簟奔拇嫫饔成淞巳止蚕淼奈锢淼刂?，通過(guò)公共配置總線(xiàn)與四個(gè)DSP核相連。每個(gè)“信號燈”具有“點(diǎn)亮”和“熄滅”兩種狀態(tài)，分別表示存儲體內的共享數據“已寫(xiě)入”和“已讀出”。DSP核通過(guò)同步指令改寫(xiě)“信號燈”寄存器的狀態(tài)，實(shí)現核間的同步操作。具體的數據一致性協(xié)議為：

當“生產(chǎn)者”DSP-i向某個(gè)存儲體寫(xiě)入共享數據后，將其“信號燈”置為“點(diǎn)亮”狀態(tài)。若這批共享數據有2～3個(gè)“消費者”，則點(diǎn)亮相應的2～3個(gè)“信號燈”。在某個(gè)“信號燈”處于“熄滅”狀態(tài)時(shí)，相應的DSP核對該存儲體的讀請求全部進(jìn)入讀隊列等待。

當“消費者”DSP-j讀出某個(gè)存儲體的共享數據后，將該存儲體與自己對應的“信號燈”置為“熄滅”狀態(tài)。當某個(gè)存儲體的所有3個(gè)“信號燈”都“熄滅”時(shí)，該存儲體被釋放，處于可寫(xiě)狀態(tài)；否則，DSP核對該存儲體的寫(xiě)請求全部進(jìn)入寫(xiě)隊列等待。

“點(diǎn)亮”和“熄滅”信號燈的順序一致性由DSP核對公共配置總線(xiàn)的獨占性訪(fǎng)問(wèn)來(lái)保證。

需要說(shuō)明的是，DSP核不一定要將其對應的存儲體寫(xiě)滿(mǎn)才能點(diǎn)亮“信號燈”，一次同步操作所傳輸的數據量最小可以是一個(gè)字節，最大不超過(guò)單個(gè)存儲體的容量。

由于FSDP的訪(fǎng)存通路與同步操作通路（即配置總線(xiàn)）是相互分離的，因此可能出現同步操作指令通過(guò)配置總線(xiàn)先于訪(fǎng)存指令提前執行的錯誤情況。本文通過(guò)軟件延遲槽的方式解決這一問(wèn)題：由編譯器通過(guò)指令調度技術(shù)，在最后一條共享數據的讀指令和“熄燈”指令之間插入1～2條無(wú)關(guān)指令或空操作（NOP），作為等待共享數據返回的延遲槽，確保最后一個(gè)讀請求被處理之后再執行“熄燈”操作。具體所需的軟件延遲槽數量取決于DSP流水線(xiàn)的設計。對于本文而言，如果DSP核在發(fā)出Load指令的第3拍沒(méi)有接收到返回的數據，則暫停指令派發(fā)，因此只需要2個(gè)延遲槽。圖4給出了兩個(gè)DSP核i和j傳遞共享數據的實(shí)例。

（a）延遲槽與同步操作的程序實(shí)例

（b）存儲體的內容變化與信號燈狀態(tài)

圖4 兩個(gè)DSP核通過(guò)兩個(gè)存儲體傳遞共享數據的例子

本文最終的優(yōu)化設計表明，任意兩個(gè)DSP核利用一對LOAD-STORE指令再加上一次同步操作，總共只需4拍即可完成一個(gè)共享數據字的傳遞，從而實(shí)現了核間細粒度共享數據的快速傳輸。當需要傳輸的共享數據量超過(guò)FSDP單通道存儲容量時(shí)，可以將數據分塊，進(jìn)行多次傳輸。

新聞中心

一種面向多核DSP的小容量緊耦合快速共享數據池

評論

相關(guān)推薦

技術(shù)專(zhuān)區