基于A(yíng)RM946E處理器的MP3解碼優(yōu)化設計
根據ARM946E處理器硬件特點(diǎn),對實(shí)時(shí)性要求較高的關(guān)鍵程序進(jìn)行C語(yǔ)言和ARM匯編級代碼優(yōu)化。
4.1 減計數循環(huán)體
IMDCT和子帶合成濾波器組2個(gè)運算量最大部分中有多個(gè)循環(huán)體運算,為了提高執行效率,推薦使用減計數循環(huán)體。
如表3所示,對于固定次數的循環(huán),減計數循環(huán)比增計數循環(huán)速度快。這是因為每次增計數循環(huán)體外加3條指令,而減計數循環(huán)體外只有2條指令,減循環(huán)終止條件為減計數到零,而不是計數增加到某個(gè)特定的限制值。由于減計數結果已存儲在指令條件標志里,省去與零比較指令。本文引用地址:http://dyxdggzs.com/article/152480.htm
4.2 內聯(lián)函數和內嵌匯編
MP3解碼算法中定點(diǎn)化乘法都是通過(guò)函數調用來(lái)實(shí)現,每次調用需要開(kāi)銷(xiāo)23~28個(gè)時(shí)鐘周期,其中超過(guò)15個(gè)周期用于函數調用時(shí)PC指針以及寄存器壓棧保護上。采用內聯(lián)函數方式(使用關(guān)鍵字_inline聲明)或宏指令,在編譯階段代碼段將被直接展開(kāi)。另外armcc編譯器允許在C源程序中使用內嵌匯編(但代碼可移植性差),使用包括匯編的內嵌函數,可以使編譯器支持通常不能有效使用的ARM指令和優(yōu)化方法,例如C編譯器不支持的ARM v5E擴展指令。使用內聯(lián)函數結合內嵌匯編實(shí)現移位乘法,可使平均時(shí)鐘周期縮短為6~8個(gè)。
4.3 ARM DSP擴展指令的運用
ARM946E處理器支持ARMDSP擴展指令,主要包括3個(gè)類(lèi)型:
(1)單周期的16×16和32×16 MAC操作;
(2)對原有的算術(shù)運算指令增加了飽和處理擴展;
(3)前導零(CLZ)運算指令,提高歸一化、浮點(diǎn)運算以及除法操作的性能。
ARM處理器不支持浮點(diǎn)運算,經(jīng)過(guò)測試及分析,定點(diǎn)運算中數值的截斷誤差選擇為28 b,其可以達到較好的解碼音質(zhì),不會(huì )因為爆音過(guò)多而影響播放效果。
完成類(lèi)似的乘法功能,ARM的SMULL(32×32)指令需要3個(gè)周期,而ARMDSP擴展指令SMULWT(32×16)只需要1個(gè)周期。從數據的準確性上分析,由于乘數的精度為16 b,最終結果有些差異,但由于MP3解碼運算都是基于28 b的定點(diǎn)數值的,所以通常的運算都是一個(gè)運算結果跟某一個(gè)固定定點(diǎn)表中的數據相乘的。若選擇固定定點(diǎn)表中數據的高16 b數據進(jìn)行運算,運算的結果誤差在1 b以?xún)取?br /> 為了驗證使用ARMDSP擴展指令的優(yōu)化效果,在系統120 MHz主頻下,以128 Kb/s的壓縮速率進(jìn)行編碼測試,采用的測試文件如表4所示。
上述3個(gè)MP3測試文件的比特率均為128 Kb/s,使用這三首MP3歌曲進(jìn)行解碼分析結果如圖3所示。
實(shí)驗表明,使用ARMDSP擴展指令比使用ARM一般指令解碼性能平均提高17.5%,主觀(guān)聽(tīng)覺(jué)上音質(zhì)效果無(wú)差異。
5 結 語(yǔ)
這里充分利用ARM946E處理器的DSP擴展指令特點(diǎn)提高程序代碼的執行效率,對3個(gè)關(guān)鍵模塊:Huff-man解碼,IMDCT運算,合成子帶濾波進(jìn)行算法優(yōu)化及簡(jiǎn)化處理,減少了各模塊的運算量,同時(shí)從C語(yǔ)言和ARM匯編層次來(lái)優(yōu)化代碼,取得了較好的實(shí)時(shí)MP3解碼效果。
評論