音頻編碼和解碼原理
數字音頻信號首先進(jìn)入數字濾波器組,它被分成等帶寬的32個(gè)子頻帶,可由數字濾波器輸出32個(gè)子帶數據信號。這種處理方法與圖像編碼信號進(jìn)行DCT變換的作用相似,但不是像圖像信號那樣分為64種余弦頻率信息,這里僅分成32個(gè)子帶,即將音頻數據流改為32種頻率的組合。聲音的分解力低于圖像,這種處理方法是可行的。然后,對32個(gè)子帶的伴音數據進(jìn)行再量化,以便再壓縮數據量。對于各個(gè)子頻帶的量化步長(cháng)不相同,量化步長(cháng)是根據人耳的聽(tīng)覺(jué)閾值和掩蔽效應而確定的。經(jīng)過(guò)量化處理的已壓縮數據,保留了伴音信息的主體部分,而舍棄了聽(tīng)覺(jué)效果影響較小的伴音信息。
進(jìn)入編碼系統的輸入信號,分流部分信號送到并列的1024點(diǎn)快速傅利葉變換器(FFT)進(jìn)行變換,它檢測輸入信號每一個(gè)瞬間取樣點(diǎn)在主頻譜分量頻域的分布的強度,經(jīng)變換的信號送到心理聲學(xué)模型控制單元。根據聽(tīng)覺(jué)心理聲學(xué)測量統計結果,可以歸納出一個(gè)心理聲學(xué)控制對照表格,并按照此表格制成控制單元,而單元電路可以集中地反映出人耳的閾值特性和掩蔽特性。
經(jīng)過(guò)量化的32個(gè)子頻帶數據已經(jīng)被壓縮,還要加上比例因子、位分配信息等輔助信息,共同加到1位流格式化單元,編碼成為兩個(gè)層次的伴音編碼信號。它既含有32個(gè)子頻帶的伴音數碼,又帶有這些數碼所對應的位分配數據和不同頻帶數據的強弱比例因子。待將來(lái)數據解碼時(shí),可根據各子頻帶的數據恢復聲音信號,以及壓縮時(shí)碼位分配和強弱比例情況,在進(jìn)行反量化時(shí),參照壓縮時(shí)的程序進(jìn)行還原。
可見(jiàn),伴音的壓縮編碼和圖像處理一樣,也要經(jīng)過(guò)變換、量化、碼位壓縮等處理過(guò)程,它運用了許多數學(xué)模型和心理聽(tīng)覺(jué)測量的統計數據,對32個(gè)子頻帶和各個(gè)層次信號的處理也各有不相同的取樣速率。實(shí)際的心理聽(tīng)覺(jué)模型和適時(shí)處理控制過(guò)程十分復雜。這些算法細節都已按硬件方式被固化在解碼芯片中,這些內容不能再改變。
3、伴音與圖像的同步
圖像和聲音信號的壓縮方法有許多不同,圖像數據量又遠遠大于聲音數據量,兩者傳送的數據碼率大不相同。每傳送14~15個(gè)視頻數據包才傳送1個(gè)音頻數據包,而播放聲音和圖像的內容又必須作到良好同步,否則將無(wú)法保證視聽(tīng)統一的效果。
為了作到聲圖同步,MPEG-1采用了獨立的系統時(shí)鐘(簡(jiǎn)稱(chēng)為STC)作為編碼的參照基準,并將圖像和聲音的數據分為許多播放單元。例如,將圖像分為若干幀,將聲音分為若干段落。在數據編碼時(shí),在每個(gè)播放單元前面加置一個(gè)展示時(shí)標(PTS),或者加置一個(gè)解碼時(shí)標(DTS)。當這些時(shí)標出現時(shí),表示前一個(gè)播放單元已經(jīng)結束,一個(gè)新的圖像和聲音播放單元立即開(kāi)始。在播放相互對應的同一圖像單元和聲音單元時(shí),可實(shí)現互相同步。
為了使整個(gè)系統在時(shí)鐘在編碼和重放時(shí),聲圖有共同的時(shí)鐘基準,又引入系統參考時(shí)鐘SCR的概念。系統參考時(shí)鐘是一個(gè)實(shí)時(shí)時(shí)鐘,其數值代表聲圖的實(shí)際播放時(shí)間,用它作為參照基準,以保證聲圖信號的傳輸時(shí)間保持一致。實(shí)時(shí)時(shí)鐘SCR必須與生活中的真實(shí)時(shí)間一致,要求它的準確度很高,否則可能發(fā)生聲音和圖像都播快或播慢的現象。為了使SCR時(shí)間基準穩定、準確,MPEG-1采用了系統時(shí)鐘頻率SCF,以它作為定時(shí)信息的參照基礎。SCF系統時(shí)鐘的頻率是90KHz,頻率誤差為90KHz±4.5KHz。聲圖信號以SCF為統一的基準,其它定時(shí)信號SCR、PTS、DTS也是以它為基礎。
三、其它MPEG標準的音頻編碼器
1、MPEG-2音頻編碼方框圖
MPEG-1是處理雙聲道立體聲信號,而MPEG-2是處理5聲道(或7聲道)環(huán)繞立體聲信號,它的重放效果更加逼真。
圖2.3.3是MPEG-2音頻編碼方框圖。它輸入互相獨立的5聲道音頻信號,有前置左、右主聲道(L、R),前置中央聲道(C),還有后置左、右環(huán)繞聲道(LS、RS)。各聲源經(jīng)過(guò)模-數轉化后,首先進(jìn)入子帶濾波器,每一聲道都要分割為32個(gè)子頻帶,各子帶的帶寬均為750Hz。為了兼容MPEG-1、普通雙聲道立體聲和環(huán)繞模擬立體聲等編碼方式,原來(lái)按MPEG-1編碼的立體聲道能夠擴展為多聲道,應當包括所有5聲道的信息,為此設置了矩陣變換電路。該電路可生成兼容的傳統立體聲信號LO、RO,還有經(jīng)過(guò)“加重”的左、中、右、左環(huán)繞、右環(huán)繞聲音信號(共5路)。對5路環(huán)繞立體聲信號進(jìn)行“加重”處理的原因:當計算兼容的立體聲信號(LO、RO)時(shí),為了防止過(guò)載,已在編碼前對所有信號進(jìn)行了衰減,經(jīng)加重處理可以去失真;另外,矩陣轉變中也包含了衰減因子和類(lèi)似相移的處理。
編碼器原始信號是5路,輸入通道是5個(gè),經(jīng)過(guò)矩陣轉化處理后產(chǎn)生了7種聲音信號。應當設置通道選擇電路,它能夠根據需要,對7路信號進(jìn)行合理的選擇處理。該處理過(guò)程決定于解矩陣的過(guò)程,以及傳輸通道的分配信息;合理的通道選擇,有利于減弱人為噪聲加工而引起的噪聲干擾。此外,還設置了多聲道預測計算電路,用于減少各通道間冗余度。在進(jìn)行多聲道預測時(shí),在傳輸通道內的兼容信號LO、RO,可由MPEG-1數據計算出來(lái)。根據人耳生理聲學(xué)基
礎,后級設置了動(dòng)態(tài)串話(huà)電路,可在給定比特的情況下提高聲音質(zhì)量,或在要求聲音質(zhì)量的前提下降低比特率。但設置該電路增加了MPEG-2解碼器的復雜程度。
經(jīng)過(guò)編碼器產(chǎn)生了多種信息,主要有編碼取樣值,比例因子,比特分配數據,動(dòng)態(tài)串話(huà)模式,多聲道預測信息,通道預測選擇信號等,諸信息傳遞給復接成幀模塊電路,最后以MPEG-2比特流形式輸出壓縮編碼信號。
MPEG-2解碼器基本上是編碼器的逆過(guò)程,其電路結構簡(jiǎn)單一些,運算量小一些。解碼器的解碼轉換矩陣可輸出5路信號,再經(jīng)過(guò)32分頻子帶濾波器處理,可輸出LS、L、C、R、RS信號;另外,經(jīng)過(guò)量化、SCF和子帶濾波器處理后,還可以取得前置立體聲LO、RO,共計可輸出7路音頻信號。
評論