四核DSP的視頻交通檢測系統設計
交通信息視頻檢測系統是通過(guò)圖像分析的方式獲取交通信息數據的設備,是智能交通系統ITS(Intelligent Transportation Systems) 的重要組成部分[1-2]。此系統以道路上方架設的攝像機作為傳感器,將路面交通圖像傳到交通信息視頻檢測系統,對圖像進(jìn)行實(shí)時(shí)分析,提取出車(chē)輛運行交通信息數據(包括車(chē)流量、車(chē)速度、車(chē)輛密度等),通過(guò)一定的通信鏈路發(fā)給交通信息控制中心。此類(lèi)系統具有準確度高、壽命長(cháng)、易維護等優(yōu)點(diǎn)。另外,大量的交通圖像數據和不斷發(fā)展的處理算法以及各種現實(shí)需求對硬件系統性能的要求越來(lái)越高,單一處理器必將不能滿(mǎn)足需要,并行、通用且處理能力強大的多處理器系統逐漸受到重視和應用。本文提出一種新型的基于四核DSP并行體系結構的交通信息視頻檢測系統的設計方案,采用4個(gè)DSP處理器并行處理圖像數據,極大提高了系統數據處理能力和傳輸性能。
本文引用地址:http://dyxdggzs.com/article/257703.htm1視頻檢測系統整體方案
目前交通信息視頻檢測系統較為復雜,而且穩定性不高、價(jià)格昂貴、實(shí)時(shí)性不強,需要專(zhuān)人管理,操作較為繁瑣。本設計系統框圖如圖1所示采用4核DSP結構,通過(guò)4個(gè)系統單元間通信接口的連接,將4個(gè)數字信號處理器DSP相結合,體現了4微處理器系統的優(yōu)勢。系統單元實(shí)現檢測算法并與外部設備交換數據。系統工作時(shí),CCD攝像頭采集車(chē)流圖像信號經(jīng)模數轉換得到數字視頻數據,數字視頻數據存入視頻緩沖器FIFO中,存滿(mǎn)一行后向4×DSP系統發(fā)出中斷請求信號;DSP中斷CPU,將數字視頻數據傳輸到內部存儲器SDRAM中,完成數字視頻圖像的采集和YUV變量分離,合成一幀完整的數字圖像數據;然后產(chǎn)生中斷通知算法處理程序對圖像進(jìn)行處理,結果存儲在DSP地址空間約定好的緩沖區里,等待外部設備取走檢測結果,以作后續處理。
2 DSP簡(jiǎn)介
DSP(數字信號處理器)自從1982年誕生以來(lái),獲得了飛速的發(fā)展。本文采用4顆TI(Texas Instrument)公司高端DSP-TMS320C6416所設計,具有主頻高、雙套外部地址和數據總線(xiàn)等特點(diǎn),非常適用于圖像處理等領(lǐng)域。有關(guān)該芯片的特點(diǎn)如下,詳細資料可見(jiàn)參考文獻[3]。
(1) DSP內核采用超長(cháng)指令字(VLIW)體系結構,有8個(gè)功能單元、64個(gè)32 bit通用寄存器。一個(gè)時(shí)鐘周期同時(shí)執行8條指令,運算能力可達到 4800MIPS(每秒百萬(wàn)條指令),支持8/16/32/64 bit的數據類(lèi)型。兩個(gè)乘法累加單元一個(gè)時(shí)鐘周期可同時(shí)執行4組16×16 bit乘法或8 組8×8bit乘法,每個(gè)功能單元在硬件上都增加了附加功能,增強了指令集的正交性。除此之外還增加了一些指令用以削減代碼長(cháng)度和增加寄存器的靈活性;
(2)為使數據能保持對超快速DSP內核的供給,TMS320C6416采用了兩級超高速緩存器,即16 KB的一級數據Cache、16 KB的一級程序Cache和1 024 KB的數據和程序統一內存。為了達到更大的擴展,1 024 KB內存中的256 KB存儲空間可設置用作二級Cache;
(3)TMS320C6416的存儲器接口提供了到SDRAM、SBSRAM、異步器件如SRAM/ROM等存儲器的無(wú)終端接口,也可連接到外部I/O器件;
(4)在TMS320C6416 中,增加了一個(gè)PCI接口,支持32bit寬的地址和數據復用總線(xiàn),工作頻率最高為33MHz;
(5)DSP器件比通用CPU家族的動(dòng)輒幾十瓦而言,其功耗一般在數瓦甚至毫瓦量級,這在各種功耗敏感場(chǎng)合顯示出獨特的優(yōu)勢,同時(shí)省去了繁雜的散熱系統。本文采用C6416,I/O電壓為3.3 V,內核電壓為1.2 V。當時(shí)鐘頻率為600 MHz時(shí),DSP的最大功耗小于1.6 W。
2.1 4×DSP的并行圖像處理系統
使用4個(gè)TI公司高端數字信號處理器TMS320C6416構建一種新型的并行圖像處理系統。該系統通過(guò)一個(gè)同步4口SRAM和系統總線(xiàn)構成互連結構,兼有緊耦合并行系統和松耦合并行系統的優(yōu)點(diǎn)[4]。
2.2 4×DSP并行系統結構
圖像處理算法靈活多樣,而且還在不斷地迅速發(fā)展,為滿(mǎn)足日益復雜的圖像處理算法和逐漸變大的圖像規模,出于通用性考慮,系統中處理器之間需要靈活的、高帶寬的通信和握手機制。圖2給出了所設計的并行系統框圖,采用4顆TMS320C6416芯片,能較快完成以前一臺計算機需要長(cháng)時(shí)間才能完成的任務(wù)。
從圖2可以看出,該系統以緊耦合系統和松耦合系統為基礎構架而設計的,結合了兩者的優(yōu)點(diǎn)。緊耦合系統通過(guò)共享的存儲器來(lái)實(shí)現處理器之間的通信,處理器之間的聯(lián)系比較緊密。松耦合系統中每個(gè)處理器節點(diǎn)帶有存儲器[5],處理器之間通過(guò)消息傳遞的方式來(lái)相互通信。該系統每個(gè)節點(diǎn)即是一臺完整的DSP處理器并且帶有SDRAM存儲器,屬于松耦合系統;而所有節點(diǎn)共享一個(gè)同步 4口SRAM存儲器,構成的整體是一個(gè)單一計算資源,屬于緊耦合系統。因此,該系統具有緊耦合系統和松耦合系統的優(yōu)點(diǎn),相比于前面兩者具有增強的可用性和更好的性能。
2.3同步4口SRAM通道劃分
將容量為128 KB的同步4口SRAM劃分為7個(gè)區域(見(jiàn)圖3),除一個(gè)公共區域外,其余6個(gè)區域用于DSP之間的互相通信。根據同步4口SRAM的特點(diǎn),這6個(gè)區域可以同時(shí)使用,即這6個(gè)區域為DSP之間的通信構建了獨立“通道”,通道之間相互獨立、互不干擾并可以同時(shí)使用。同步4口SRAM的總線(xiàn)頻率工作為133 MHz,數據寬度為16bit,其帶寬為266 MB。由于設計的對稱(chēng)性,無(wú)論采用乒乓法還是熱土豆法來(lái)測量點(diǎn)到點(diǎn)的通信開(kāi)銷(xiāo),其結果都是一樣的。
2.4系統工作原理和性能分析
數字視頻數據存入視頻緩沖器FIFO,這一速度可達266Mb/s。在DSP-1的DMA控制器作用下,前端數據緩沖FIFO中的數據被不斷地轉移到同步四口SRAM中,然后各個(gè)DSP分別或者同時(shí)讀取要處理的數據。因為前端FIFO和同步四口SRAM都掛接在DSP-1的獨立接口上,因此數據分配過(guò)程不會(huì )打擾到DSP-1本身算法的執行,甚至不會(huì )干擾到DSP-1對其外接的SDRAM存儲器的讀寫(xiě)操作。各個(gè)DSP協(xié)同完成整個(gè)圖像處理算法,過(guò)程中可能會(huì )存在相互之間的通信或者數據交換,這同樣通過(guò)同步四口SRAM完成。初始化時(shí),各個(gè)DSP將程序分別下載到各自的代碼空間和數據空間;對數據處理完成后,再不斷地通過(guò)PCI總線(xiàn)將處理的結果分別送出。此外,系統上留有足夠的擴展接口,方便對系統的進(jìn)一步擴展。
采用4個(gè)TI公司高端數字信號處理器TMS320C6416的并行圖像處理系統。單個(gè)的數字信號處理器TMS320C6416的頻率為600MHz,處理器的運算能力4800MIPS,處理器的本地SDRAM為32 MB?,F在的4×DSP系統,具有處理器的最高性能19 200 MIPS,系統具有總SDRAM為128 MB+128 KB。另外,考慮加速比和效率[6-7]。加速比指對某個(gè)特定的應用,使用并行算法的執行速度相對于串行算法的執行速度所快的倍數;并行系統的效率則指加速比與處理器個(gè)數之比。根據Amdahal定律[4],加速比會(huì )隨著(zhù)處理器數目的增加而提高,但是存在極限,而且這一極限是由問(wèn)題本身所決定的,因為隨著(zhù)處理器數目的增加,額外開(kāi)銷(xiāo)會(huì )越來(lái)越大。對一幅 1024×2048像素,每個(gè)像素1B的圖像進(jìn)行FFT運算,單一處理器運算時(shí)間為82 715.020 ms,4個(gè)處理器運算時(shí)間為20 703.770 ms,可得加速比為3.995,并行系統的效率為99.88%??梢?jiàn),系統性能得到大幅提升。
隨著(zhù)數字信號處理器的飛速發(fā)展,圖像處理算法更加復雜,多個(gè)DSP并行協(xié)同工作的構架將越來(lái)越多地被采用,應用會(huì )更加廣泛。為滿(mǎn)足日益復雜的圖像處理算法和不斷增加圖像規模,采用4顆TMS320C6416芯片,設計了一套通用的高性能并行圖像處理系統,能較快完成以前1臺計算機需要長(cháng)時(shí)間才能完成的任務(wù)。該系統可以作為一個(gè)通用的視頻檢測的硬件平臺,實(shí)現多種檢測算法,具有很好的可擴展性,容易在此基礎上進(jìn)行二次開(kāi)發(fā)。實(shí)驗和應用結果表明,該系統能夠實(shí)時(shí)地計算交通信息參數,并實(shí)現圖像和數據的網(wǎng)絡(luò )傳輸,具有強大的視頻處理能力和網(wǎng)絡(luò )功能??傊?,該方案靈活、簡(jiǎn)單,能夠滿(mǎn)足實(shí)時(shí)性的要求,實(shí)踐證明可應用于車(chē)流量檢測系統中以提高了系統的整體性能。
評論