DSP H.264編碼器的電路設計

作者：時(shí)間：2016-09-12 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

3.3 代碼優(yōu)化

純C版本的X264程序并沒(méi)有利用DM6446的資源和并行機制，代碼運行速度極低。因此必須對代碼進(jìn)行優(yōu)化，提高處理性能。X264代碼優(yōu)化有以下3個(gè)層次：項目級優(yōu)化、算法級優(yōu)化和指令級優(yōu)化：

(1)項目級優(yōu)化項目級優(yōu)化主要是對CCS提供的各種編譯參數進(jìn)行選擇、搭配、調整，如本文使用的選項-o3、-pm等;利用CCS編譯器提供的優(yōu)化功能，改善循環(huán)及多重循環(huán)體性能，進(jìn)行軟件流水，提高軟件的并行性;改寫(xiě)不適合編譯器優(yōu)化的語(yǔ)句，使CCS能夠對程序進(jìn)行更好的優(yōu)化。

(2)算法級優(yōu)化進(jìn)行算法級優(yōu)化時(shí)。應使VC環(huán)境下的純C版本與CCS下的版本同步更新，VC版本運行正確，既可以保證算法理論上的正確，又可以加快工作速度并減少問(wèn)題的產(chǎn)生。該算法優(yōu)化工作主要有以下幾點(diǎn)：①運動(dòng)估算法的選擇：X264編碼器提供3種可選的整像素運動(dòng)估算法：X264_ME_ESA(全搜索法)、X264_ME_HEX(六邊形搜索法)、X264_ME_DIA(小菱形搜索法)。在VC環(huán)境下使用純C版本代碼對同一視頻序列使用3種不同的搜索方法進(jìn)行編碼。對比3種搜索方法在編碼速度、峰值信噪比(PSNR)、碼率方面的性能。對比之下 X264_ME_ESA算法的峰值信噪比最高，X264_ME_HEX次之，X264_ME_DIA最低，但相互之間的質(zhì)量差別并不大，碼率差別也很小，但編碼速度卻有明顯差距，X264_ME_DIA較前兩者在編碼速度上有明顯的優(yōu)勢。經(jīng)比較，選擇使用X264_ME_DIA運動(dòng)估計算法。②幀內預測模式的改進(jìn)：在X264的幀內預測流程中加入提前終止模式選擇的條件，改進(jìn)算法的流程。進(jìn)行16×16宏塊幀內模式搜索時(shí)，在當前模式的開(kāi)銷(xiāo)小于已搜索過(guò)的模式的最小開(kāi)銷(xiāo)的一半時(shí)，終止16×16幀內預測模式選擇，以當前模式為最佳16×16幀內預測模式。對4×4塊也加入相同的條件，并且若當前4×4塊幀內預測模式的預測開(kāi)銷(xiāo)比相應的最佳16×16塊幀內預測模式的開(kāi)銷(xiāo)的1/16還要小，則終止4×4塊的幀內預測模式選擇，以當前預測模式作為最佳4×4塊的幀內預測模式。改進(jìn)后的幀內預測主體流程如圖3所示，灰色部分為加入的判定條件。

幀間預測模式的改進(jìn)：將當前的16×16宏塊劃分為4個(gè)8×8宏塊，分別預測其運動(dòng)矢量，然后以左右相鄰、上下相鄰的2個(gè)8×8塊的運動(dòng)矢量的差值和閾值相比較為依據，判定是否進(jìn)行16×8、8×16等分塊模式的預測，最后選擇開(kāi)銷(xiāo)最小的劃分模式為最佳幀間劃分模式。

(3)指令級優(yōu)化 DM6446一個(gè)時(shí)鐘周期內可并行運行8條指令，一次可存取64位數據，內部擁有64個(gè)32位通用寄存器，并且支持對寄存器中的4個(gè)8位字節或2個(gè)16位字節分別進(jìn)行運算處理，這些使得DM6446具有很強的并行運算能力。視頻圖像的像素尺寸一般是4的倍數，X264中像素的值是用8位或16位數據按矩陣形式有規律的存儲，這種數據存儲結構與DM6446的并行處理方式很契合。因此對X264程序進(jìn)行指令優(yōu)化充分發(fā)揮DM6446的并行運算能力，是提高編碼器速度的關(guān)鍵。主要分為以下兩部分：①使用內聯(lián)函數優(yōu)化;C6000編譯器提供了許多內聯(lián)函數intrinsics，它們是匯編指令映射的在線(xiàn)函數，不宜用C語(yǔ)言實(shí)現其功能的匯編指令都有對應的intrinsics函數。這樣就可在C語(yǔ)言結構中直接使用內聯(lián)函數實(shí)現對多個(gè)數據的并行運算操作。如：未使用內聯(lián)函數優(yōu)化前X264程序調用一次雙線(xiàn)性?xún)炔搴瘮抵荒苡嬎阋粋€(gè)亞像素點(diǎn)的值，而使用內聯(lián)函數_mem4()、_avgu4()等進(jìn)行優(yōu)化后，一次可以計算4個(gè)亞像素點(diǎn)的值，大大提高了運算速度。②使用線(xiàn)性匯編語(yǔ)言?xún)?yōu)化：由于線(xiàn)性匯編不需要考慮寄存器分配、指令延遲、并行指令安排等因素。因此可以利用 CCS提供的profile分析工具將使用頻率高、耗時(shí)多的函數抽取出來(lái)，根據事先已知的數據間的相關(guān)性等信息，在程序中直接改寫(xiě)函數匯編，人工優(yōu)化。涉及的算法有：SAD、SSD的計算;DCT變換;反DCT變換、亞像素搜索等。

4 實(shí)驗結果

選取具有代表性的視頻序列carphone(人物運動(dòng)幅度較大)、news(背景變化，人物運動(dòng)幅度不大)、container(背景簡(jiǎn)單，景物運動(dòng)緩慢)進(jìn)行編碼。視頻為YUV 4：2：0格式.QCIF，量化步長(cháng)定為26，共50幀，采用IPPP…編碼模式。DM6446的時(shí)鐘頻率為600 MHz。表1為優(yōu)化前后編碼時(shí)鐘周期對比，I幀編碼速度平均提高了9倍，P幀編碼速度平均提高了11倍。

以視頻Miss-America為例，研究、對比移植優(yōu)化后的編碼器在不同的量化步長(cháng)值(QP)下，圖像的壓縮質(zhì)量，如圖4所示。

5 結論

移植優(yōu)化后的X264編碼器在CCS環(huán)境下可正確編碼，在量化步長(cháng)值26下編碼圖像質(zhì)量較高，優(yōu)化后編碼速度較優(yōu)化前有明顯提升。介紹的H.264視頻編碼系統的硬件設計，和X264編碼器針對DM6446平臺移植、優(yōu)化的思路和方法，對構建高效的視頻應用平臺具有一定的參考價(jià)值。

新聞中心

DSP H.264編碼器的電路設計

評論

相關(guān)推薦

技術(shù)專(zhuān)區