基于A(yíng)DSP-BF533處理器的去方塊濾波器的實(shí)現及優(yōu)化
b) 最耗時(shí)的部分,即函數循環(huán)的內部存在大量的重復計算,造成計算復雜度劇增;
c) 算法中用到的不少數據,例如運動(dòng)矢量、圖像的亮度和色度數據等存放在速度較慢的片外SDRAM中,但在濾波過(guò)程中的頻繁調用,使數據搬運時(shí)間劇增。
針對耗時(shí)的原因,對算法進(jìn)行了以下改進(jìn):
3.2.1 將原程序中復雜的函數及循環(huán)簡(jiǎn)單化
指令長(cháng)度和運算速度是相互制約的,往往將代碼通過(guò)條件判斷可以進(jìn)行高度精簡(jiǎn),但由于增加了機器的判斷工作量而使得速度變慢;反之,將代碼中的判斷去除,程序進(jìn)行展開(kāi),往往可以減少耗費的指令周期,但代碼長(cháng)度會(huì )增加。JM8.6中的去方塊濾波代碼較短,將其中的函數間關(guān)系簡(jiǎn)單化,以代碼長(cháng)度增加換取執行速度的增加。
對于系統運行最耗時(shí)的循環(huán)體,采取適當改寫(xiě)循環(huán)形式、多重循環(huán)體展開(kāi)等方法有效地減少運算的復雜度。此外,減少調用函數次數,改寫(xiě)if-else語(yǔ)句也是有效的優(yōu)化手段。
3.2.2 去除參考代碼中的大量冗余代碼和重復計算
a) 因為使用的參考代碼是JM8.6中的去方塊濾波模塊,該模塊可以對H.264的各種擋次和級別的碼流進(jìn)行濾波,而解碼器是基于基本擋次的,僅僅涉及到I幀、P幀的濾波操作,因此可以將參考代碼中的關(guān)于B幀、SP/SI幀、場(chǎng)模式和幀場(chǎng)自適應模式的相關(guān)濾波部分去除。
b) 程序在獲取濾波強度BS和進(jìn)行亮度/色度的濾波過(guò)程中,都要獲取當前子塊所在的宏塊的相鄰宏塊的可達性的信息(即這個(gè)宏塊能否被使用,通過(guò)調用GetNeighbour 函數實(shí)現),由于濾波是按照宏塊中的邊緣先垂直后水平進(jìn)行的,對于一條邊緣獲取的信息是相同的,因此這個(gè)操作可以對每條邊緣獲取一次即可,不必在循環(huán)內部反復判斷。同時(shí)在濾波算法中,僅需要獲取在當前宏塊上面和左邊的宏塊的可達性信息,可將獲取當前宏塊的左上及右上角宏塊信息的冗余操作去除。同時(shí),獲取水平方向的濾波強度的函數調用getNeighbour時(shí),getNeighbour參數的取值分別是luma為定值1,xN是[-1,3,7,11],yN是[0-15],此時(shí)函數getNeighbour中的很多if-else語(yǔ)句是無(wú)效的判斷,這些冗余判斷占用了大量的時(shí)鐘周期。此外,對各個(gè)分支的概率進(jìn)行分析,將概率最大的判斷分支放在前面執行,也提高了函數執行的速度。
以下是精簡(jiǎn)后的GetNeighbour函數代碼,僅有數條語(yǔ)句,大大減少了運算量。
c) 在JM86參考代碼中對于一個(gè)亮度宏塊的16×4共64條像素邊緣的BS值逐條獲取,而通過(guò)對BS獲取條件進(jìn)行分析可知,處于兩個(gè)子塊間垂直邊緣或水平邊緣的4條像素邊緣的BS值分別是相等的。因此,對一條邊緣僅要進(jìn)行獲取第1、5、9、13條像素邊緣的BS值,再賦給相應的其他像素邊緣即可,由于獲取BS值的操作位于循環(huán)中,需要經(jīng)過(guò)許多判斷及運算,通過(guò)這一改進(jìn),大大簡(jiǎn)化了計算復雜度。
d) 參考代碼中的循環(huán)內部有很多語(yǔ)句與循環(huán)參數無(wú)關(guān),可以將這些語(yǔ)句調整至循環(huán)外部,避免了冗余計算。
3.2.3 利用BPP分塊處理技術(shù)解決片外數據頻繁調用的問(wèn)題
針對頻繁調用片外數據影響了程序的運行速度的問(wèn)題,采用BPP分塊技術(shù)進(jìn)行優(yōu)化。在片內的L1緩存中開(kāi)辟3塊空間分別存放待濾波的亮度分量、色度U分量、色度V分量。根據每個(gè)宏塊進(jìn)行濾波時(shí)可能涉及的像素范圍,在對CIF圖像進(jìn)行濾波時(shí),將一幀的396個(gè)宏塊分成4類(lèi):A類(lèi)為第1個(gè)宏塊,其上邊緣和左邊緣都是圖像邊緣,對其濾波前讀入的亮度數據是16×16,色度數據是2個(gè)8×8;B類(lèi)為第1個(gè)宏塊行中除去第1個(gè)宏塊的其余宏塊,其上邊緣是圖像邊緣,對其濾波前讀入的亮度數據是16×20,色度數據是兩個(gè)8×12;C類(lèi)是第1個(gè)宏塊列中除去第1個(gè)宏塊的其余宏塊,其左邊緣是圖像邊緣,對其濾波前讀人的亮度數據是20×16,色度數據是2個(gè)12×8;D類(lèi)是除掉A、B、C這3類(lèi)宏塊的其余宏塊,也就是上邊緣和左邊緣都在當前圖像內的宏塊,對其濾波前讀入的亮度數據是20×20,色度數據是2個(gè)12×12。
進(jìn)行濾波時(shí),首先按宏塊的類(lèi)型以不同的數量從片外的數據緩存中整塊地讀入亮度和色度數據到片上的3塊濾波緩存,然后進(jìn)行濾波處理,并將結果數據重新存儲到片外存儲空間中。通過(guò)這種方法,一方面在一定程度上減少了頻繁調用片外數據的時(shí)間,提高了運行速度;另一方面通過(guò)對待濾波宏塊的細分,減少了參考代碼中的判斷引起的流水線(xiàn)中斷,也在一定程度上提升了程序速度。
3.3 匯編級別的優(yōu)化
BlackfinBF533處理器的內核支持C或C++語(yǔ)言,但由系統自動(dòng)將C程序翻譯成匯編語(yǔ)言效率比較低下,因此對一些系統調用比較頻繁、耗時(shí)較多的模塊,可以用人工將其轉化成高效率的匯編語(yǔ)言來(lái)提高運行速度。主要通過(guò)以下幾個(gè)方面來(lái)提高程序的速度:
a) 以寄存器變量代替局部變量。在C語(yǔ)言中,子程序和函數中往往使用局部變量來(lái)暫時(shí)存放數據。當程序運行時(shí),編譯器為聲明的所有局部變量開(kāi)辟臨時(shí)內存空間,對于局部變量的存取操作都涉及到內存的存取,而內存訪(fǎng)問(wèn)的速度相對于寄存器訪(fǎng)問(wèn)是很慢的。因此,可以利用系統中的數據寄存器、指針寄存器來(lái)替代僅僅起暫存作用的局部變量,從而大大節省系統訪(fǎng)問(wèn)內存帶來(lái)的時(shí)間延遲。但由于系統中的寄存器數量對于局部變量來(lái)說(shuō)相當有限,因此必須合理高效地使用寄存器。
b) 以硬件循環(huán)代替軟件循環(huán)。軟件循環(huán)是指在for或while等循環(huán)的開(kāi)始或結尾處設置判斷條件來(lái)控制循環(huán)的開(kāi)始、繼續、結束。軟件循環(huán)的條件判斷指令會(huì )動(dòng)態(tài)地選擇分支,一旦發(fā)生跳轉,會(huì )阻塞流水線(xiàn),而保持流水線(xiàn)的暢通是保持高效運行的關(guān)鍵因素。Blackfin處理器有專(zhuān)用的硬件支持兩級嵌套的零開(kāi)銷(xiāo)硬件循環(huán),這種方式不需要判斷條件轉移,DSP硬件根據預定的循環(huán)次數自動(dòng)執行循環(huán)并結束循環(huán),從而保證了流水線(xiàn)的暢通,提高速度。
c) 充分利用數據總線(xiàn)寬度。Blackfin533外部數據總線(xiàn)寬度32位,一次可存取4字節。因此,充分利用數據總訪(fǎng)問(wèn)寬度,特別在操作大量數據時(shí),保持一次存取4字節,可減少指令周期數,從而提高執行速度。
d) 高效使用并行指令和向量指令。并行指令和向量指令是Blackfin系列DSP的一大特點(diǎn)。通過(guò)對并行指令的使用,可以充分發(fā)揮Blackfin處理器的SIMD系統結構的優(yōu)點(diǎn)及硬件資源的并行處理能力,減少指令數,從而提高程序執行效率。往往通過(guò)對程序的合理安排可以做到使用1條并行指令來(lái)替代2條或3條非并行指令。向量指令則充分利用指令寬度,同時(shí)對多個(gè)數據流進(jìn)行相同操作,如要進(jìn)行2個(gè)16位的算術(shù)或移位操作,完全可以通過(guò)1個(gè)32位的向量指令來(lái)實(shí)現,從而以1個(gè)時(shí)鐘周期來(lái)實(shí)現原來(lái)2個(gè)周期的工作。例如R3=abs R1(V)就用1個(gè)指令周期同時(shí)實(shí)現2個(gè)16位數據的求絕對值操作。
e) 合理配置數據存儲空間。限于DSP片內和片外數據存儲空間的訪(fǎng)問(wèn)速度和容量特點(diǎn),片內空間存取速度快但容量很小,而片外空間較大但訪(fǎng)問(wèn)速度慢,因此,合理地分配數據存放位置對于提高程序的運行速度是十分關(guān)鍵的。對于使用頻率高的數據盡量放在片內空間中,而不常用的數據放在片外空間中。若要存取位于片外的數據時(shí),應將待存取的數據盡量安排成連續分布,一次將大塊的片外數據讀進(jìn)片內緩存,避免頻繁讀取片外數據帶來(lái)的時(shí)間浪費。
4 優(yōu)化實(shí)現的結果
測試優(yōu)化效果的方法是將參考代碼JM8.6中的去方塊濾波C程序模塊加到原有的解碼器中進(jìn)行測試,并與經(jīng)過(guò)系統、算法、匯編3個(gè)級別優(yōu)化的去方塊濾波匯編程序模塊的測試周期進(jìn)行對比。選擇的測試圖像序列為Clarie.cif、Paris.cif、Mobile.cif,測試數據見(jiàn)表1。
由表1可以看出,與未優(yōu)化前的JM8.6中的C程序代碼相比,經(jīng)過(guò)優(yōu)化后的去方塊濾波匯編模塊效率提高了7倍左右。
5 結束語(yǔ)
本文通過(guò)系統、算法及匯編3個(gè)級別優(yōu)化實(shí)現了H.264中的去方塊濾波功能,特別是通過(guò)改進(jìn)去方塊濾波的實(shí)現算法,對待濾波的宏塊進(jìn)行分類(lèi)以及充分地利用并行指令、向量指令等匯編級別的優(yōu)化手段,取得了較好的優(yōu)化效果。
評論