基于TMS320C6201的G.723.1多通道語(yǔ)音編解碼的實(shí)現
3.1.2 提高寄存器的利用率
本文引用地址:http://dyxdggzs.com/article/83480.htmDSP芯片內部的運算單元運行效率非常高,但如果寄存器和數據總線(xiàn)之間的數據交換頻繁,將使DSP的執行效率大打折扣。因為DSP在進(jìn)行內存操作時(shí),往往需要若干周期的延遲,如Load指令要有4個(gè)周期的延遲,Store指令需要2個(gè)周期的延遲。為了減少耗時(shí)的內存操作,可以在程序進(jìn)入循環(huán)體之前,將要頻繁使用的數據預先放入寄存器,然后反復調用,實(shí)踐證明這種方法可以提高一部分效率。
3.1.3 使用內在函數(Intrinsic)
內在函數是在某些C6201DSP的匯編指令前加上“_”構成它可以方便地實(shí)現某些需若干C語(yǔ)句才能實(shí)現的功能。它是一種非常簡(jiǎn)便高效的優(yōu)化方法,它的調用格式和普通C函數一樣,但在編譯時(shí)編譯器會(huì )自動(dòng)將Intrinsic用對應的匯編指令替代。C6201指令集中絕大多數的運算邏輯指令都可以這樣使用,比如飽和絕對值、飽和加、飽和減、飽和乘、兩個(gè)字中的對應半字同時(shí)加或同時(shí)減、兩個(gè)字中的對應半字同時(shí)乘或交叉乘、歸一化及位操作等。經(jīng)過(guò)此步優(yōu)化后,大部分循環(huán)體都可以生成較為有效的流水內核(piplinedkernel)。用Intrinsic替代G.723.1原先的C代碼,運算量下降為原來(lái)的1/10。
3.1.4 對算法的冗余部分合理精簡(jiǎn)
經(jīng)過(guò)檢查,發(fā)現ITU-T G.723.1的C代碼存在冗余部分。象6.3k碼率的MP-MLQ搜索模塊中,只需要用到偶數位置的脈沖響應的自相關(guān),所以對奇數位置的脈沖響應自相關(guān)計算可以省略。
另外,在G.723.1標準中存在大量的10階FIR和10階IIR濾波器運算,如編碼部分的感知加權、零輸入響應、解碼部分綜合濾波器和后濾波等,FIR和IIR的通用形式可以表示為:
每次循環(huán),FIR濾波器內存要用新的輸入值更新,IIR濾波器內存要用新的輸出值更新,使用按標準提供的算法,要專(zhuān)門(mén)用一個(gè)10階循環(huán)更新內存。如果用一個(gè)10單位大小的循環(huán)緩存區,每次用新值覆蓋最老的樣值,動(dòng)態(tài)調整循環(huán)緩存區的頭指針,可以節省原先用于內存更新的cycle。
3.2 匯編級優(yōu)化
由于C編譯器只能完成70%的工作且對于復雜的循環(huán),C編譯器無(wú)法生成高效率的代碼,所以對運算量大的模塊只能用手寫(xiě)匯編。
3.2.1 字長(cháng)優(yōu)化
?。茫叮玻埃钡淖珠L(cháng)為32位,它支持按字節、半字、字存取。對于16位的數組,當它在內存中連續排列時(shí),用32位讀寫(xiě)指令LDW或STW替代16位讀寫(xiě)指令LDH或STH,循環(huán)次數可減少一半。另外,C6201的匯編指令支持兩個(gè)32位寄存器的高16位和低16位之間互乘,結果分別放到不同的寄存器中,互不影響。具體指令為SMPY(L×L)、SMPYH(H×H)、SMPYHL(H×L)和SMPYLH(L×H)。通過(guò)字長(cháng)優(yōu)化,可以大大提高程序的運行效率。必須注意的是,在使用字長(cháng)優(yōu)化時(shí),數組在內存中的位置必須對齊32位邊界。
3.2.2 對外循環(huán)的優(yōu)化
?。茫叮玻埃钡模镁幾g器對多重循環(huán)的最內層一般能較好地優(yōu)化到一句到兩句,但對外循環(huán)的優(yōu)化效率則差很多。手寫(xiě)匯編時(shí),可以先將內循環(huán)展開(kāi),再把外循環(huán)的指令并入其中,可以減少所耗費的cycle數。
?。茫叮玻埃钡难h(huán)一般分前導(Prolog)、內核(Kernel)及排空(Epilog)三部分。代碼的并行程度從Prolog開(kāi)始不斷提高,Kernel內的并行程度最高,Epilog與Prolog相反,并行性逐漸降低。在多重循環(huán)中,如果盡量把內循環(huán)前導部分的指令與填入排空部分未用的單元,一起執行,可以在執行本次循環(huán)的排空語(yǔ)句的同時(shí)執行下次循環(huán)的前導語(yǔ)句。這樣可不多花cycle而提高整個(gè)循環(huán)的效率。
4 實(shí)現結果
經(jīng)過(guò)C語(yǔ)言級和匯編級的多種優(yōu)化,最后實(shí)現了一路G.723.1的編解碼需要花費10.6MCPS,整個(gè)代碼的程序空間為208K byte(程序中包括了部分c6201的庫函數),數據空間為8K byte,碼本大?。玻埃?byte,多通道的上下文數據為1.48K byte。200MHz的C6201每秒可以實(shí)時(shí)編解碼16路語(yǔ)音信號。所有代碼全部通過(guò)了ITU-T測試矢量的測試。表1是各主要模塊的運算量。
表1 G.723.1各主要模塊運算量
本文提出的利用C6201 DSP進(jìn)行ITU-T G.723.1全雙工實(shí)時(shí)多通道語(yǔ)音編解碼的實(shí)現。該實(shí)現可以在IP電話(huà)、視頻會(huì )議中得到廣泛應用。
評論