基于DSP處理器上并行實(shí)現ATR算法

作者：時(shí)間：2012-02-29 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

自動(dòng)目標識別（ATR）算法通常包括自動(dòng)地對目標進(jìn)行檢測、跟蹤、識別和選擇攻擊點(diǎn)等算法。戰場(chǎng)環(huán)境的復雜性和目標類(lèi)型的不斷增長(cháng)使ATR算法的運算量越來(lái)越大，因此ATR算法對微處理器的處理能力提出了更高的要求。由于通用數字信號處理芯片能夠通過(guò)編程實(shí)現各種復雜的運算，處理精度高，具有較大的靈活性，而且尺寸小、功耗低、速度快，所以一般選擇DSP芯片作為微處理器來(lái)實(shí)現ATR算法的工程化和實(shí)用化。

本文引用地址：http://dyxdggzs.com/article/257669.htm

為了保證在DSP處理器上實(shí)時(shí)地實(shí)現ATR算法，用算法并行化技術(shù)。算法并行化處理的三要素是：①并行體系結構；②并行軟件系統；③并行算法。并行體系結構是算法并行化的硬件基礎，并行算法都是針對特定的并行體系結構開(kāi)發(fā)的并行程序。根據DSP處理器的數目，ATR算法的并行實(shí)現可以分為處理器間并行和處理器內并行。處理器間并行是指多個(gè)DSP處理器以某種方式連接起來(lái)的多處理器并行系統，ATR算法在多個(gè)處理器上并行招待。根據處理器使用存儲器的情況，多處理器并行系統又可分為共享存儲器多處理器并行系統和分布式多處理器并行系統。處理器內并行是指在單個(gè)DSP處理器內通過(guò)多個(gè)功能單元的指令級并行（ILP）來(lái)實(shí)現ATR算法的并行化。本文分別對在共享存儲器多處理器并行系統、分布式多處理器并行系統和指令級并行DSP處理器上并行實(shí)現ATR算法進(jìn)行了探討。

1 在共享存儲器多處理并行系統上實(shí)現ATR算法

在共享存儲器多處理器并行系統中，各個(gè)處理器通過(guò)共享總線(xiàn)對所有的存儲器進(jìn)行操作，實(shí)現各個(gè)處理器之間的數據通信。而在任一時(shí)刻，只允許一個(gè)處理器對共享總線(xiàn)進(jìn)行操作。所以處理器對存儲器進(jìn)行讀/寫(xiě)操作時(shí)就必須先獲得對共享總線(xiàn)的控制權，這通過(guò)總線(xiàn)仲裁電路實(shí)現。然而，由于所有的處理器只能通過(guò)一條共享總線(xiàn)對存儲器進(jìn)行訪(fǎng)問(wèn)，這在處理器數目比較多或者處理器之間頻繁交換數據的情況下容易引起總線(xiàn)沖突和等待而降低整個(gè)并行系統的運行速度。共享存儲器多處理器并行系統的優(yōu)點(diǎn)是結構簡(jiǎn)單，當處理器的數目較少時(shí)，可以達到較高的加速比。

ADSP2106x處理器支持最為常用的共享存儲器多處理器并行系統，組成多處理器系統的每一片ADSP2106x的片內存儲器統一編址，任一ADSP2106x可以訪(fǎng)問(wèn)其它任何一片ADSP2106x的片內存儲器。由于片內SRAM為雙口存儲器，因而這種訪(fǎng)問(wèn)并不中斷被訪(fǎng)問(wèn)處理器的正常工作。每個(gè)處理器片內SRAM既是該處理器的局部存儲器，又是共享存儲器的部分。在不增加輔助電容的情況下，通過(guò)外部總線(xiàn)接口直接相連的處理器數量最多為6個(gè)。由于每個(gè)處理器的工作程序放在其片內的雙口SRAM中，因此各個(gè)處理器可以實(shí)現并行處理，這是ADSP2106x的存儲器結構所決定的。

ATR算法在共享存儲器多處理器并行系統中實(shí)現時(shí)，在編寫(xiě)并行算法程序方面應當重點(diǎn)考慮的問(wèn)題包括：

（1）均衡地把任務(wù)分配給各個(gè)處理器

ATR算法在共享存儲器多處理器并行系統中實(shí)現任務(wù)級并行，因此必須把ATR算法劃分為計算量均衡的多個(gè)任務(wù)，把各個(gè)任務(wù)分配給多個(gè)處理器，才能發(fā)揮多處理器并行系統的最大并行效率。

（2）盡量減少多處理器之間數據通信

由于多處理器只能通過(guò)一條共享總線(xiàn)對存儲器進(jìn)行訪(fǎng)問(wèn)，這在多處理器之間頻繁交換數據的情況下容易引起總線(xiàn)競爭而降低整個(gè)并行系統的運行速度。

（3）利用單個(gè)處理器的并行編程特性

充分應用單個(gè)處理器的并行編程特性，有利于縮短各個(gè)處理器上任務(wù)的運行時(shí)間。例如，ADSP2106x的32位浮點(diǎn)運算單元包含一個(gè)乘法器、一個(gè)加法器和移位邏輯電路，它們并行工作；比特倒轉尋址在傅立葉變換運算時(shí)非常有用；循環(huán)尋址在作卷積、數字濾波運算時(shí)經(jīng)常用到等。

2 在分布式多處理器并行系統上實(shí)現ATR算法

在分布式多處理器并行系統中，多處理器有各自獨立的存儲器，多個(gè)處理器通過(guò)通信口相連構成分布式多處理器并行系統。分布式多處理器并行系統的加速比和處理器的數目呈線(xiàn)性關(guān)系，所以只要增加處理器的數目，分布式多處理器并行系統的處理能力就能夠成比例地增加。分布式多處理器比較適合于構成大規模并行系統。

目前，計算量過(guò)大仍然是制約許多有效的ATR算法實(shí)時(shí)實(shí)現的個(gè)主要因素。ATR算法在分布式多處理器并行系統上實(shí)時(shí)實(shí)現是一個(gè)很有潛力的研究領(lǐng)域，特別在地基和天基雷達信號處理系統中有廣闊的應用前景。分布式多處理器并行系統的連接方式有線(xiàn)形、樹(shù)形、星形、網(wǎng)孔和超立方體結構等。樹(shù)形和星形網(wǎng)絡(luò )的優(yōu)點(diǎn)是網(wǎng)絡(luò )管理容易、數據通信進(jìn)尋徑簡(jiǎn)單；缺點(diǎn)是樹(shù)形網(wǎng)絡(luò )的根節點(diǎn)處理器和星形網(wǎng)絡(luò )的中央節點(diǎn)處理器的輸入/輸出吞吐量大，易造成通信瓶頸。所以樹(shù)形和星形網(wǎng)絡(luò )不適合ATR算法各個(gè)任務(wù)數據通信量較大的應用場(chǎng)合。

在分布式多處理器并行系統中并行實(shí)現ATR算法目前還處于研究的初始階段，在編寫(xiě)并行算法程序應當重點(diǎn)考慮兩個(gè)方面：

（1）各處理器任務(wù)的均衡分配

在分布式多處理器并行系統中處理器的數目通常較多，只有合理地對眾多的處理器均衡地分配任務(wù)，才能最大地發(fā)揮并行系統的總體性能，提高并行系統的加速比。

（2）處理器節點(diǎn)間的高效通信

在分布式多處理器并行系統中數據通信都是點(diǎn)對點(diǎn)通信。即兩個(gè)相鄰的處理器之間通過(guò)通信口通信。因此需要合理安排各個(gè)處理器節點(diǎn)在網(wǎng)絡(luò )結構中的位置，盡可能地縮短處理器節點(diǎn)間的通信路徑長(cháng)度，從而實(shí)現處理器節點(diǎn)間的高效數據通信。

3 在指令級并行DSP處理器上實(shí)現ATR算法

在單片DSP處理器內通過(guò)多個(gè)功能單元的指令級并行（ILP）實(shí)現ATR算法的并行化處理，目前適合ATR算法實(shí)時(shí)處理的指令級并行芯片是TI公司的TMS320C6x系列DSP。TMS320C6x系列DSP處理器是第一個(gè)使用超長(cháng)指令字（VLIW）體系結構的數字信號處理芯片。下面以TMS320C62x定點(diǎn)系列DSP為例說(shuō)明指令級并行的原理和ATR并行算法軟件開(kāi)發(fā)方法。

3.1 VLIW體系結構

TMS320C62x的內核結構如圖1所示。內核中的8個(gè)功能單元可以完全并行運行，功能單元執行邏輯、位移、乘法、加法和數據尋址等操作。內核采用VLIW體系結構，單指令字長(cháng)32位，取指令、指令分配和指令譯碼單元每周期可以從程序存儲器傳遞8條指令到功能單元。這8條指令組成一個(gè)指令包，總字長(cháng)為256位。芯片內部設置了專(zhuān)門(mén)的指令分配模塊，可以將每個(gè)256位的指令分配到8個(gè)功能單元中，并由8個(gè)功能單元并行運行。TMS320C62x芯片的最高時(shí)鐘頻率可以達到200MHz。當8個(gè)功能單元同時(shí)運行時(shí)，該芯片的處理能力高達1600MIPS。

3.2 基于TMS320C62x的并行算法軟件開(kāi)發(fā)方法

基于TMS320C62x的并行編譯系統支持C語(yǔ)言和匯編語(yǔ)言開(kāi)發(fā)并行程序代碼。通常，開(kāi)發(fā)ATR并行算法按照代碼開(kāi)發(fā)流程的三個(gè)階段進(jìn)行并行程序設計：第一階段是開(kāi)發(fā)C代碼；第二階段是優(yōu)化C代碼；第三階段是編寫(xiě)線(xiàn)性匯編代碼。以上三個(gè)階段不是必須的，如果在某一階段已經(jīng)實(shí)現了ATR算法的功能和性能要求，就不必進(jìn)入下一階段。

（1）開(kāi)發(fā)C代碼

開(kāi)發(fā)C代碼需要考慮的要點(diǎn)包括：

①數據結構

TMS320C62x編譯器定義了各種數據結構的長(cháng)度：字符型（char）為8位，短整型（short）為16位，整型（int）為32位，長(cháng)整形（long）為40位，浮點(diǎn)型（float）為32位，雙精度浮點(diǎn)型（double）為64位。在編寫(xiě)C代碼時(shí)應當遵循的規則是：避免在代碼中將int和long型作為同樣長(cháng)度處理；對于定點(diǎn)乘法，應當盡可能使用short型數據；對循環(huán)計數器使用int或者無(wú)符號int類(lèi)型，避免不必要的符號擴展。

②提高C代碼性能

應用調試器的Profile工具可以得到一個(gè)關(guān)于C代碼中各特定代碼段執行情況的統計表，也可以得到特定代碼段招待所用的CPU時(shí)鐘周期數。因此可以找出影響軟件程序總體性能的C代碼段加以改進(jìn)，通常是循環(huán)代碼段影響軟件程序總體性能。

③數據的定標

由于TMS320C62x是定點(diǎn)系列芯片，不支持浮點(diǎn)操作。在程序編寫(xiě)過(guò)程中，應當盡量采用定點(diǎn)的數據結構。而實(shí)際處理的數據通常都是浮點(diǎn)的，所以需要把浮點(diǎn)數據通過(guò)定標轉化為整型數據處理，提高程序的處理速度。數據的定標是十分關(guān)鍵的步驟，既要使數據處理精度滿(mǎn)足性能要求，又要防止在數據處理過(guò)程中出現溢出。

（2）優(yōu)化C代碼

優(yōu)化C代碼包括向編譯器指明不相關(guān)的指令、循環(huán)展開(kāi)、循環(huán)合并、使用內聯(lián)函數、使用字訪(fǎng)問(wèn)短整型數據和軟件流水等方法。

①向編譯器指明不相關(guān)的指令

為使指令并行操作，編譯器必須確定指令間的相關(guān)性，只有不相關(guān)的指令才可以并行執行。如果編譯器不能確定兩條指令是不相關(guān)的，則認為是相關(guān)的，安排它們串行招待。用戶(hù)可通過(guò)如下方法指明相關(guān)的指令：

·關(guān)鍵字const可以指定一個(gè)目標，const表示一個(gè)變量或者一個(gè)變量的存儲單元保持不變，使用const可以提高代碼的性能和適應性。

·一起使用-pm選項和-03選項可以確定程序優(yōu)先級。在程序優(yōu)先級中，所有源文件都被編譯成一個(gè)模塊，從而使編譯器更有效地消除相關(guān)性。

·使用-mt選項向編譯器說(shuō)明在代碼中不存在存儲器相關(guān)性，即允許編譯器在無(wú)存儲器相關(guān)性的假設下進(jìn)行優(yōu)化。

②循環(huán)展開(kāi)

循環(huán)展開(kāi)就是把循環(huán)計數小的循環(huán)展開(kāi)，成為非循環(huán)形式的串行程序，或者把循環(huán)計數大的循環(huán)部分展開(kāi)，減少循環(huán)迭代次數，增加單個(gè)循環(huán)內的代碼，使得循環(huán)內的操作可以均勻分布在各個(gè)功能單元上，保持DSP處理器的各個(gè)功能單元滿(mǎn)負荷運行。

③循環(huán)合并

如果兩個(gè)循環(huán)計數差不多、循環(huán)執行互不相同的操作，可以把它們合并在一起組成一個(gè)循不。當兩個(gè)循環(huán)的負荷都不滿(mǎn)時(shí)，這是非常有用的。

④使用內聯(lián)函數

TMS320C62x編譯器提供的內聯(lián)函數是直接映射為內聯(lián)指令的特殊函數，內聯(lián)函數的代碼高效、代碼長(cháng)度短。用戶(hù)可以使用內聯(lián)函數并行優(yōu)化C代碼。

⑤使用字節訪(fǎng)問(wèn)短整型數據

內聯(lián)函數中有些指令是對存儲在32位寄存器的高16位和低16位字段進(jìn)行操作的。當有大量短整型數據進(jìn)行操作時(shí)，可以使用字（整型數）一次訪(fǎng)問(wèn)兩個(gè)短整型數據。然后使用內聯(lián)函數對這些數據進(jìn)行操作，從而減少對內存的訪(fǎng)問(wèn)。

⑥軟件流水

軟件流水是用來(lái)安排循環(huán)指令，使這個(gè)循環(huán)多次迭代并行執行的一種技術(shù)。在編譯時(shí)使用-o2和-o3選項，編譯器可對循環(huán)代碼實(shí)現軟件流水；使用-o3和-pm選項，使優(yōu)化器訪(fǎng)問(wèn)整個(gè)程序，了解循環(huán)次數；使用_nassert內聯(lián)函數，防止冗余循環(huán)產(chǎn)生；使用投機執行（_mh選項）消除軟件注流水循環(huán)的排空，從而減少代碼尺寸。

在嵌套循環(huán)中，編譯器僅對最里面的循環(huán)執行軟件流水，因此對招待周期很少的內循環(huán)作循環(huán)展開(kāi)，外循環(huán)進(jìn)行軟件流水，這樣可以改進(jìn)C代碼并行執行的性能。使用軟件流水還應當注意：盡管軟件流水循環(huán)可以包含內聯(lián)函數，但是不能包含函數調用；在循環(huán)中不可以有條件終止指令；在循環(huán)體中不可以修改循環(huán)控制變量。

（3）編寫(xiě)線(xiàn)性匯編代碼

編寫(xiě)線(xiàn)性匯編代碼是并行算法軟件開(kāi)發(fā)流程的第三個(gè)階段。了提高并行算法軟件代碼的性能，對影響并行程序速度的關(guān)鍵C代碼可以用線(xiàn)性編重新編寫(xiě)。編寫(xiě)線(xiàn)性匯編代碼不需要指明使用的寄存器、指令的并行與否、指令的延遲周期和指令使用的功能單元，匯編優(yōu)化器會(huì )根據情況確定這些住處。優(yōu)化線(xiàn)性匯編代碼的方法包括：為線(xiàn)性匯編指令指定功能單元，使得最后的匯編指令并行執行；使用字訪(fǎng)問(wèn)短整型數據；使用軟件流水對循環(huán)進(jìn)行優(yōu)化。編寫(xiě)線(xiàn)性匯編代碼的工作量非常大，需要很長(cháng)的開(kāi)發(fā)周期，而且開(kāi)發(fā)后的匯編代碼不能像C代碼那樣移植在其它的DSP平臺上。

應用上述并行程序開(kāi)發(fā)方法，在TMS320C6201 EVM板上實(shí)現了寬帶毫米波雷達目標時(shí)延神經(jīng)網(wǎng)絡(luò )識別算法。經(jīng)過(guò)實(shí)際測試，并行算法程序執行時(shí)間為0.850ms，滿(mǎn)足了目標識別算法的實(shí)時(shí)性需求。

新聞中心

基于DSP處理器上并行實(shí)現ATR算法

評論

相關(guān)推薦

技術(shù)專(zhuān)區