Turbo譯碼研究及其DSP實(shí)現
3.1 TMS320C6416簡(jiǎn)介
TM S320C6416是TI公司推出的功能強大的DSP產(chǎn)品,他采用先進(jìn)的VelociTI結構,將超長(cháng)指令字VLIW結構和高并行性結合起來(lái),通過(guò)增加指令級的并行性使其性能有了較大的飛躍。C6416的最高工作時(shí)鐘達到1 GHz,指令周期僅為1 ns,最大處理能力可以達到9 000 MIPS,比TMS320C62系列芯片性能高出15倍之多,是當前市場(chǎng)上最先進(jìn)的定點(diǎn)數字信號處理器。
片內有8個(gè)可完全并行運算的功能模塊(2個(gè)乘法器和6個(gè)算術(shù)邏輯單元),他們分為相同的兩組,屬于兩個(gè)數據通道,每個(gè)數據通道與一組32個(gè)32位寄存器相連,不同組的兩個(gè)功能模塊之間的數據交換是通過(guò)兩個(gè)寄存器組之間的交叉總線(xiàn)實(shí)現。典型片內資源還包括1 MB的片內RAM和一個(gè)32位的外部存儲器接口,可以支持多類(lèi)型RAM,包括同步隨機訪(fǎng)問(wèn)存儲器(SDRAM)和同步突發(fā)靜態(tài)隨機存儲器SBSRAM等。 DMA控制器包括4個(gè)可編程通道和一個(gè)輔助通道,能夠在內存、片內輔助資源及外部器件之間以CPU的時(shí)鐘速率實(shí)現高速數據傳輸,這種傳輸發(fā)生在CPU運行后臺。CPU和DMA控制器對數據存儲器的操作可以按8位字節,16位半字或者32位字的長(cháng)度進(jìn)行。
3.2 用DSP實(shí)現Turbo譯碼器的優(yōu)化措施和技術(shù)
TMS320C6416的特殊結構對編譯器和軟件設計結構提出了很高的要求,軟件的設計與優(yōu)化將成為整個(gè)系統性能的決定因素,代碼的高度并行性將是獲得超強性能的關(guān)鍵。采用流水線(xiàn)技術(shù)和功能模塊多重化技術(shù)是開(kāi)發(fā)處理器的指令級并行性的兩個(gè)主要手段。C6416對指令獲取、指令分配、指令執行、數據存儲等階段進(jìn)行了多級流水線(xiàn)的劃分,不同指令執行的流水延遲也不相等,因此各種指令的安排要盡量不中斷指令流水執行,同時(shí),使盡可能多的功能模塊并行運行。
由于TMS320C6416芯片的結構對于基于匯編語(yǔ)言的編程過(guò)于復雜,這里采用C語(yǔ)言編寫(xiě)主程序。Turbo譯碼采用并行算法,為提高程序執行效率,充分利用Max-Log-Map譯碼算法的結構特點(diǎn),對程序進(jìn)行寄存器級優(yōu)化:把Viusal C++實(shí)現的浮點(diǎn)算法改為定點(diǎn)算法,將前后向累積路徑度量計算的最內層循環(huán)展開(kāi),合理分配寄存器,使指令中參與運算的寄存器盡量屬于同一個(gè)數據通道,以減少交叉數據通道沖突,對于訪(fǎng)問(wèn)頻繁的變量,置成寄存器型。同時(shí)利用功能強大TMS320C6416的C語(yǔ)言編譯器和優(yōu)化器對程序進(jìn)行全程優(yōu)化,從而得到效率較高的代碼。
4測試結果及性能分析
首先在Visual C++6.0上完成信息比特的產(chǎn)生,Turbo編碼和AWGN信道加噪通過(guò)DSP的RTDX(Real-Time Data Exchange)技術(shù),把加噪后的信息比特送到TMS320C6416的EVM板上,測試其誤碼率和完成譯碼所花費的周期。譯碼器的許多參數都可以改變,如編碼長(cháng)度,滑動(dòng)窗大小,歸一化門(mén)限,迭代次數等。這種靈活性便于滿(mǎn)足不同系統的需要,可移植性好。本文系統仿真采用BPSK調制,在A(yíng)WGN環(huán)境下傳輸,發(fā)送端Turbo編碼采用約束長(cháng)度為4,生成矩陣為(15,13)的分量譯碼器,交織算法為3GPP標準交織算法,譯碼算法為Max-Log- Map算法。
4.1 不同迭代次數

圖4為采用1/3碼率,交織長(cháng)度為1 024,迭代3,4,5次,通過(guò)AWGN信道時(shí)的誤碼率曲線(xiàn)。從圖中可以看到,隨著(zhù)迭代次數的增加,獲得的編碼增益越高,但增加迭代次數會(huì )帶來(lái)系統延時(shí)和增加系統的譯碼復雜性。仿真充分說(shuō)明了不同迭代次數對碼字糾錯性能的改善程度。
4.2 不同的交織長(cháng)度

圖5采用1/3碼率,不同交織長(cháng)度,5次迭代通過(guò)AWGN信道的誤碼率曲線(xiàn)。從圖5仿真結果看,在同樣的碼率、生成矩陣、交織算法和迭代次數條件下,所取交織長(cháng)度越長(cháng),對碼字中各個(gè)比特的交織距離就越大,誤碼率性能就越好,且隨著(zhù)信噪比的增加,誤碼率性能改善越明顯。但交織長(cháng)度的增加也會(huì )帶來(lái)譯碼延時(shí)的增大和存儲量的增加,所以應根據業(yè)務(wù)的要求來(lái)采用不同交織長(cháng)度。
4.3 不同的碼率

圖6為1 024交織長(cháng)度,迭代譯碼5次,1/2和1/3碼率的誤碼率曲線(xiàn),從圖中可以看出碼率越低誤碼率性能越好,但是隨著(zhù)碼率的降低,所需傳輸的冗余比特也線(xiàn)性增加,對于固定的信息傳輸率而言,會(huì )導致系統的吞吐率降低,需求的帶寬增加。
4.4譯碼處理時(shí)間
采用5次迭代譯碼,1 024交織長(cháng)度,1/3碼率的Max-Log-Map算法在TMS6416EVM板上用CCS軟件測試得到所需要的周期數為45 867 356個(gè)時(shí)鐘周期,而TMS320C6416EVM的主頻為1 GHz,計算得到所花費的時(shí)間大約為4.5 ms,而在3G系統中最小延時(shí)為10 ms,所以滿(mǎn)足3G系統實(shí)時(shí)處理的要求。
5結語(yǔ)
本文從譯碼算法和硬件存儲方法對Max-Log-Map算法進(jìn)行優(yōu)化,使他在譯碼性能損失滿(mǎn)足要求的情況下,能大大降低算法復雜度,減少運算量和緩存器數量。
評論