基于DSP的高性能通用并行彈載計算機設計實(shí)現

作者：時(shí)間：2009-07-17 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

0 引言

隨著(zhù)技術(shù)的發(fā)展，在導彈控制和通信等領(lǐng)域，需要處理的任務(wù)規模越來(lái)越大。雖然隨著(zhù)VLSI技術(shù)的發(fā)展，已產(chǎn)生了運算能力達每秒幾十億次的處理器，但還遠遠不能滿(mǎn)足這些領(lǐng)域的需求。而VLSI技術(shù)的發(fā)展已受到其開(kāi)關(guān)速度的限制，進(jìn)一步提高處理器主頻遇到的困難越來(lái)越大。為此，把用于大型計算機的并行處理技術(shù)應用到信號處理中來(lái)，在信號處理系統中引入并行多處理器技術(shù)是必然趨勢。傳統彈載計算機一般針對特定場(chǎng)合，先確定算法，再根據算法確定系統結構，由于系統結構與算法嚴格相關(guān)，因此通用性較差。隨著(zhù)一些標準技術(shù)(標準板型、接口、互聯(lián)協(xié)議等)在彈上控制系統中的應用，設計標準化、模塊化的通用型計算機成為了可行。而且所設計的還要可擴展、可重構，進(jìn)而根據不同的應用場(chǎng)合和算法構建各種彈載計算機系統。

1 并行彈載計算機處理結構模型

普遍的兩種并行處理結構如圖1所示，一種是共享總線(xiàn)結構，另一種是分布式并行結構。其中，P(Proces-sor)：處理器；M(Memory)：存儲器；MB(Memory Bus)：存儲器總線(xiàn)；NIC(Network Interface Circuitry)：網(wǎng)絡(luò )接口電路。共享總線(xiàn)結構中多個(gè)處理器P經(jīng)由高速總線(xiàn)連向共享存儲器，每個(gè)處理器等同地訪(fǎng)問(wèn)共享存儲器、I／O設備和操作系統服務(wù)。分布式并行結構中多個(gè)處理節點(diǎn)通過(guò)高通信帶寬、低延遲的定制網(wǎng)絡(luò )互聯(lián)，每個(gè)處理節點(diǎn)都有物理上的分布存儲器，節點(diǎn)間通過(guò)消息傳遞相互作用。

并行處理的目的是采用多個(gè)處理器同時(shí)對任務(wù)處理，從而減小任務(wù)執行時(shí)間，它主要反映在加速比(S)和并行效率(E)上。加速比是指對于一個(gè)特定應用，并行算法的執行速度相對串行算法加快了很多倍。效率則是針對每個(gè)處理器來(lái)衡量的。依據并行處理中可擴放性(Sealability)評測的等效率度量標準可從理論上評測這兩種結構。

首先考慮共享總線(xiàn)結構。設分別是并行系統上第i個(gè)處理器的有用處理時(shí)間和額外開(kāi)銷(xiāo)時(shí)間。設每個(gè)處理器上子任務(wù)的運算量和通信量之比為r，即平均r次運算中有一個(gè)數據需要交換?？偩€(xiàn)被p個(gè)處理器輪流訪(fǎng)問(wèn)，tio。是處理器完成一次總線(xiàn)存取所需的相對時(shí)間，等效為處理器運算能力和總線(xiàn)訪(fǎng)問(wèn)能力之比。一般情況下，總的處理時(shí)間和額外開(kāi)銷(xiāo)時(shí)間如下：

假設任務(wù)均勻分成p部分，就有：Te=pt。在最壞情況下，p個(gè)處理器總是同時(shí)訪(fǎng)問(wèn)總線(xiàn)，考慮最后得到總線(xiàn)訪(fǎng)問(wèn)權的處理器：

Tp是每個(gè)處理器上并行算法運行時(shí)間，在最壞情況下，Tp=Te+To。設問(wèn)題規模W為最佳串行算法完成的計算量，即W=Te，加速度比：

顯而易見(jiàn)，共享總線(xiàn)系統的并行效率隨著(zhù)處理器數目p的增大而下降。

而在分布式并行系統中，理想情況下任一時(shí)刻都可有兩個(gè)處理器通過(guò)其通信口相互交換數據，設一個(gè)通信口傳送一個(gè)數據的相對時(shí)間為tcomm，等效為處理器運算能力和通信口傳輸能力之比。同時(shí)，假設每次交換還需對本地存儲器訪(fǎng)問(wèn)。這樣就有通信開(kāi)銷(xiāo)：

和處理規模p成線(xiàn)性關(guān)系，并行效率與p無(wú)關(guān)。

以上討論的是假設任意兩個(gè)處理器之間可以直接進(jìn)行數據交換，而在實(shí)際情況下，尤其是處理器數目p多于處理器的通信口數量時(shí)，兩個(gè)非直接相連的處理器之間的數據交換所需開(kāi)銷(xiāo)與其經(jīng)過(guò)的路徑成正比關(guān)系。但這并不影響以上討論的公式。因為在規則網(wǎng)絡(luò )拓撲結構中最大或平均路徑是一個(gè)定值n，那么這時(shí)，分布式并行系統的加速比公式為：

可見(jiàn)，在這種情況下分布式并行系統同樣能獲得線(xiàn)性加速比。由以上理論分析可知，共享總線(xiàn)并行結構適合共享存儲編程模型，進(jìn)行細粒度的并行處理，但其擴展性能較差，處理器的數目有限，單機處理性能有限；分布式并行結構采用消息傳遞的機制，適合進(jìn)行粗粒度的并行處理，便于大規模的系統擴展，提供強大的整體性能。

2 彈載計算機的設計實(shí)現

由于彈上信號處理算法的復雜性，信號處理系統具有復雜多樣的并行處理模式，如基于空間的數據并行處理、基于時(shí)間的流水并行處理等。另外，彈上計算機系統具有多種類(lèi)型的數據流，如原始數據流(A／D采集之后的數據流)、中間數據流(各處理節點(diǎn)之間傳遞的數據流)、定時(shí)同步信號以及控制數據流等。這些不同的數據流的傳輸帶寬不同，因此系統中要有與這些不同數據流相匹配的互聯(lián)網(wǎng)絡(luò )。

高性能通用并行彈載計算機是構建信號處理系統的基礎。它除了選用高性能的處理器外，為了具有通用性，還要具有標準化、模塊化、可擴展、可重構的特點(diǎn)，以便構建各類(lèi)控制和信號處理系統。同時(shí)為了適應控制和信號處理系統復雜并行處理模式和多種數據流的特點(diǎn)，它要具有混合的并行模式和多層次的互聯(lián)網(wǎng)絡(luò )?；谶@些要求和上文中對并行處理結構模型的理論分析，筆者選用當前業(yè)界最高性能的浮點(diǎn)DSP芯片TS201和大規模FPGA，設計了一個(gè)標準化、模塊化、可擴展、可重構、混合并行模式、多層次互聯(lián)的高性能通用并行彈載計算機。圖2是其結構框圖。

該彈載計算機選用標準cPCI 6U板型，板內集成了兩個(gè)處理節點(diǎn)，同時(shí)可承載兩個(gè)PMC子板。

2．1 DSP+FPGA共享總線(xiàn)型處理節點(diǎn)

彈上控制和信號處理系統中，低層的信號處理算法處理的數據量大，對處理速度要求高，但運算結構相對簡(jiǎn)單，適于用FPGA實(shí)現，這樣能同時(shí)兼顧速度及靈活性。高層處理算法處理的數據量較低層算法少，但算法的控制結構復雜，適于用運算速度高，尋址方式靈活，通信機制強大的DSP來(lái)實(shí)現。

為此，筆者設計的彈載計算機主要包括DSP，FP-GA，SDRAM和CPLD。DSP主要實(shí)現數據的高層算法處理和控制，FPGA實(shí)現對外的接口，并可對輸入輸出的數據進(jìn)行低層算法預處理，SDRAM用來(lái)緩存數據，CPLD用來(lái)實(shí)現一些輔助邏輯。選用的DSP芯片是ADI公司的TS201，單片處理能力3．6 GFLOPS，內核時(shí)鐘頻率600 MHz，片內內存24 Mb，125 MHz／64 b片外總線(xiàn)，具有1 GB的SDRAM訪(fǎng)問(wèn)能力，還有4個(gè)Link口，每個(gè)Link口收發(fā)獨立，最高帶寬為1．2 GB／s。

所有特點(diǎn)都使得TS201適合多片擴展，構成一個(gè)大規模高性能的信號處理系統。選用的FPGA芯片為Xilinx公司的VirtexⅡpro系列XC2VP20，它的規模約200萬(wàn)門(mén)，內部集成了1 584 Kb的RAM，88個(gè)18×18 b的乘法器，8個(gè)傳輸速率可達3．125 Gb／s的Rock-etIO高速通道，這些特點(diǎn)使得該FPGA適合實(shí)現數據的傳輸和預處理。而且它的管腳兼容XC2VP30／40，可實(shí)現FPGA規模的進(jìn)一步擴展。每個(gè)處理節點(diǎn)包括兩片TS201，一片FPGA，最高4 GB的SDRAM，以及一片CPLD，并共享總線(xiàn)。之所以只用兩片TS201，是考慮到總線(xiàn)上設備太多，會(huì )使得總線(xiàn)時(shí)鐘頻率降低，帶寬變小，并行度和效率都不高。兩片TS201共享總線(xiàn)充分發(fā)揮了處理能力、傳輸能力、存儲能力的匹配性。TS201總線(xiàn)上的SDRAM最高支持1 GB的空間，通過(guò)CPLD進(jìn)行邏輯控制，可使SDRAM擴展到4 GB，增加了存儲能力，適應大容量存儲應用的場(chǎng)合。

2．2 多層次互聯(lián)網(wǎng)絡(luò )

互聯(lián)網(wǎng)絡(luò )是構建一個(gè)并行處理和控制系統的關(guān)鍵。本彈載計算機利用系統PCI總線(xiàn)、TS201的Link口，基于FPGA的RocketIO物理通道實(shí)現的串行RapidIO協(xié)議，以及利用CPLD實(shí)現的同步定時(shí)總線(xiàn)，構成了不同層次的互聯(lián)網(wǎng)絡(luò )，以便適應信號處理系統中不同類(lèi)型的數據流傳輸。cPCI標準通過(guò)J1，J2連接64 b系統PCI總線(xiàn)，PCI橋把系統PCI總線(xiàn)轉換為局部PCI總線(xiàn)。每個(gè)處理節點(diǎn)通過(guò)FPGA(FPGA 0和FPGA 1)實(shí)現PCI接口，兩個(gè)處理節點(diǎn)和兩個(gè)PMC子板共享局部PCI總線(xiàn)，并通過(guò)PCI橋與系統PCI總線(xiàn)連接在一起。這使得系統主控模塊可以通過(guò)PCI總線(xiàn)實(shí)現對每個(gè)處理節點(diǎn)以及PMC子板的控制。同時(shí)各個(gè)節點(diǎn)之間也可通過(guò)。PCI總線(xiàn)交換數據。但由于總線(xiàn)的限制，只能實(shí)現一些低速、非實(shí)時(shí)的數據交換。TS201具有4個(gè)高速Link口，可實(shí)現多片TS201之間的高速數據傳輸。對于板內的4片TS201，利用各自2個(gè)Link口構成1個(gè)環(huán)形Link連接，使得板內4片TS201緊密耦合在一起。另外，每片TS201的1個(gè)Link口共4個(gè)Link口連到FPGA 2(稱(chēng)之為L(cháng)ink Switch)上，同時(shí)每個(gè)PMC的PJ4上也定義兩個(gè)Link口，板卡的J4上定義4個(gè)Link口，所有這些Link口都連到FPGA2上。通過(guò)FPGA2，可以靈活地配置板內、板內與PMC子板、板間不同節點(diǎn)構成不同的Link互聯(lián)網(wǎng)絡(luò )，并且可以利用。FPGA的動(dòng)態(tài)加載功能，動(dòng)態(tài)地配置不同的Link互聯(lián)網(wǎng)絡(luò )結構。FPGA2同時(shí)還與J5上的32 b自定義接口連接，可實(shí)現一些用戶(hù)自定義接口。同時(shí)每個(gè)處理節點(diǎn)內的2片TS201還有1個(gè)Link口都連到了節點(diǎn)內總線(xiàn)上的FPGA(FPGA0和FPGA1)，與該FPGA對外的串行RapidIO接口相配合，實(shí)現外部串行RapidIO數據流與TS201內部數據的交換。Link口具有大帶寬、低延時(shí)的特點(diǎn)，因此適合用來(lái)傳輸原始數據流和一些帶寬大，實(shí)時(shí)性強的中間數據流。串行RapidIO是基于包交換的第三代互聯(lián)協(xié)議，相比TS201的Link協(xié)議，它具有更為完善的分層協(xié)議定義(包括邏輯層、傳輸層和物理層)。該協(xié)議使得模塊具有更強的通用性，不僅可以與同類(lèi)型的各模塊互聯(lián)，還可以與任何具有串行RapidIO接口的異構模塊互聯(lián)。利用FPGA的Rocke-tIO物理通道，通過(guò)FPGA編程可實(shí)現串行RapidIO協(xié)議。FPGA0和FPGA1通過(guò)4個(gè)RocketIO通道直接相連，可實(shí)現二者之間4個(gè)1×模式或1個(gè)4×模式的串行RapidIO接口。同時(shí)，FPGA0和FPGAl還各自通過(guò)4個(gè)RocketIO與J3相連，這樣通過(guò)J3，彈載計算機就可以以8個(gè)1×模式或2個(gè)4×模式的串行RapidIO接口與其他模塊互聯(lián)，構成多個(gè)模塊之間的串行Ra-pidIO互聯(lián)網(wǎng)絡(luò )。串行RapidIO網(wǎng)絡(luò )也具有大帶寬的特性，而且相比Link口具有更為完善的協(xié)議控制，但正是由于復雜的協(xié)議控制，使它的傳輸延時(shí)相比Link口更大。因此，它可與Link網(wǎng)絡(luò )形成很好的互補，用來(lái)傳輸大帶寬，延時(shí)要求不高的數據流。在J3上定義了8 b同步定時(shí)信號，用來(lái)實(shí)現各個(gè)節點(diǎn)之間的同步定時(shí)控制。這些信號通過(guò)RS 245驅動(dòng)后與每個(gè)節點(diǎn)內部的CPLD相連。每片TS201可通過(guò)中斷或讀寫(xiě)寄存器等方式對節點(diǎn)內的CPLD進(jìn)行操作，進(jìn)而通過(guò)CPLD內部邏輯產(chǎn)生相應的同步定時(shí)信號進(jìn)行各個(gè)節點(diǎn)之間的同步。RS 245的雙向性使得每個(gè)節點(diǎn)既可以發(fā)出同步信號，也可以接收同步信號，更加靈活。該模塊所有對外的互聯(lián)接口都是通過(guò)J1～J5接插件連接，這樣就可以在底板上把各個(gè)模塊之間的各個(gè)接口連接起來(lái)。而且既可以使用固定拓撲結構的無(wú)源底板，也可以使用帶有交換芯片的有源底板或專(zhuān)門(mén)的交換板，靈活構建各類(lèi)互聯(lián)網(wǎng)絡(luò )。

3 應用驗證

該彈載計算機具有通用化、可擴展、可重構的特點(diǎn)?？筛鶕煌男枨?，通過(guò)增減彈載計算機來(lái)改變處理能力，通過(guò)改變各模塊之間的互聯(lián)形式來(lái)適應不同的算法。下面以基于該彈載計算機構建數據并行的相控陣雷達信號處理系統來(lái)驗證這些特點(diǎn)。圖3是以該彈載計算機構建的某相控陣雷達信號處理系統結構框圖。

該系統采用光纖與相控陣天線(xiàn)陣列之間傳輸數據，把光纖接口板做成標準PMC板型，可以集成在彈載計算機中。每個(gè)彈載計算機集成兩個(gè)光纖接口板，一個(gè)光纖接口板接收一個(gè)子陣的回波數據，并通過(guò)彈載計算機上每個(gè)PMC板卡的PJ4上定義的Link口，經(jīng)LinkSwitch把數據傳給每個(gè)處理節點(diǎn)。每個(gè)處理節點(diǎn)對數據進(jìn)行波束形成，然后再把形成的子陣波束通過(guò)J3定義的串行RapidIO接口傳給進(jìn)行子陣級波束形成的彈載計算機。該模塊進(jìn)行子陣級波束的形成以及其他雷達信號的處理，并承載PMC板型同步定時(shí)模塊，由其產(chǎn)生系統中各個(gè)模塊的同步定時(shí)信號，使各個(gè)模塊同步工作。該處理系統采用數據并行的處理模式，每個(gè)節點(diǎn)處理一個(gè)子陣的回波，可以通過(guò)增減處理節點(diǎn)來(lái)靈活適應天線(xiàn)陣列的增減。

4 結語(yǔ)

并行計算機是解決信號處理控制領(lǐng)域任務(wù)規模不斷增大、問(wèn)題不斷復雜的關(guān)鍵技術(shù)。本文在分析了共享總線(xiàn)和分布式并行兩種并行模型優(yōu)缺點(diǎn)的基礎上，設計并實(shí)現了一種適應信號處理系統需求的混合并行、多層次互聯(lián)、標準化、模塊化、可擴展、可重構的高性能通用并行彈載計算機。實(shí)際中，使用該彈載計算機，配合相應的I／O模塊，構建了多個(gè)相控陣雷達、合成孔徑雷達、圖像處理等彈載計算機系統，獲得了廣泛的應用，驗證了該彈載計算機的高性能、通用性。

合成孔徑雷達相關(guān)文章:合成孔徑雷達原理

新聞中心

基于DSP的高性能通用并行彈載計算機設計實(shí)現

評論

相關(guān)推薦

技術(shù)專(zhuān)區