淺析MPEG-4技術(shù)及應用綜述
一. 概述
本文引用地址:http://dyxdggzs.com/article/202171.htm關(guān)于圖象視頻壓縮已有n×384kbps電視會(huì )議H.120建議、p×64kbps視頻編碼標準H.261、 連續色調靜止圖 象壓縮標準JPEG、PSTN等低比特率活動(dòng)圖象壓縮標準H.263。1988年ISO與CCITT成立活動(dòng)圖象專(zhuān)家組MPEG(MovingPictureExpertsGroup),研究數字存儲媒體上的活動(dòng)圖象及其伴音的編碼表示,1992年通過(guò)1.5Mbps編碼標準MPEG-1,1994年通過(guò)2Mbps、30Mbps高質(zhì)量視頻音頻編碼標準MPEG-2。以上標準均偏重于某(幾)個(gè)應用領(lǐng)域,交互性較差,至多允許視頻序列可變速度的雙向播放,可重用性只限于矩形視頻區域及其相關(guān)音頻的線(xiàn)性片段,無(wú)法在同一場(chǎng)景集成自然信息與合成信息,不能提供對各種網(wǎng)絡(luò )的一致性訪(fǎng)問(wèn),容錯性、靈活性和可擴展性比較差。
MPEG于1991年5月提出關(guān)于視頻音頻編碼的MPEG-4項目,設系統、音頻、視頻、需求、實(shí)現研究、測試及自然合成混合編碼(SNHC)子組,1998年11月成為國際標準。MPEG-4提供更強的交互能力。場(chǎng)景中的每個(gè)對象獨立編碼,用戶(hù)可以選擇性地與其中某(幾)個(gè)對象交互,具有良好的重用性。重新組合音視對象AVO(AudioVisualObject)構造新場(chǎng)景,可以集成各種對象,無(wú)縫地集成自然信息與合成信息,實(shí)時(shí)信息與存儲信息,AVO可以是單/雙/多聲道音頻信息、單/雙/多鏡頭2D/3D視頻信息??梢酝该鞯卦L(fǎng)問(wèn)信息,通過(guò)各種網(wǎng)絡(luò )傳輸的信息最終映射為本地信息,整個(gè)過(guò)程給用戶(hù)的感覺(jué)就如同訪(fǎng)問(wèn)本地信息。而且允許基于內容(比特率、分辨率、幀率、防錯保護和解碼優(yōu)先級)的可伸縮性和服務(wù)質(zhì)量(QoS)參數,更加靈活,可擴展,充分考慮未來(lái)技術(shù)的發(fā)展及應用需求,將解碼器可編程能力分為:不可編程的標準工具集合(Flex-0);由標準化工具及其接口靈活配置的算法(Flex-1);多種工具構成可能算法的標準化可擴展機制(Flex-2)。
二. 技術(shù)部分
2.1 MPEG-4標準概要
MPEG-4引入了對象基表達(object-based representation)的概念,用來(lái)表達視聽(tīng)對象A VO(audio/visual objects);MPEG-4擴充了編碼的數據類(lèi)型,由自然數據對象擴展到計算機生成的合成數據對象,采用合成對象/自然對象混合編碼SNHC(Synthetic/Natural Hybrid Coding)算法;在實(shí)現交互功能和重用對象中引入了組合、合成和編排等重要概念。MPEG-4中制定了一個(gè)稱(chēng)為傳輸多媒體集成框架DMIF(Delivery Multimedia Integration Framework)的會(huì )話(huà)協(xié)議,它用來(lái)管理多媒體數據流。該協(xié)議在原則上與文件傳輸協(xié)議FTP(File Transfer Protocol)類(lèi)似,其差別是:FTP返回的是數據,而DMIF返回的是指向到何處獲取數據流的指針。DMIF覆蓋了三種主要技術(shù):廣播技術(shù),交互網(wǎng)絡(luò )技術(shù)和光盤(pán)技術(shù)。
MPEG-4將應用在移動(dòng)通信和公用電話(huà)交換網(wǎng)PSTN(public switched telephone network )上,并支持可視電話(huà)(videophone)、電視郵件(video mail)、電子報紙(electronic newspapers)和其他低數據傳輸速率場(chǎng)合下的應用。
MPEG-4的標準名是Very-low bitrate audio-visual coding (甚低速率視聽(tīng)編碼)。截止到1998年9月,已作為國際標準草案DIS (Draft International Standard)的MPEG-4文件有5個(gè)部分,它們是:
① MPEG-4系統標準,標準名是ISO/IEC DIS 14496-1 Very-low bitrate audio-visual coding - Part1: Systems。
② MPEG-4電視圖象標準,標準名是ISO/IEC DIS 14496-2 Very low bitrate audio-visual coding -Part 2: Video。
③ MPEG-4聲音標準,標準名是ISO/IEC DIS 14496-3 Very low bitrate audio-visual coding - Part3: Audio。
④ MPEG-4一致性測試標準,標準名是ISO/IEC DIS 14496-4 Very-low bitrate audio-visual coding -Part 4: Conformance Testing。
⑤ MPEG-4參考軟件,標準名是ISO/IEC DIS 14496-5 Very-low bitrate audio-visual coding - Part5: Reference software
⑥ MPEG-4傳輸多媒體集成框架,標準名是ISO/IEC DIS 14496-6 Very-low bitrate audio-visual coding - Part 6: Delivery Multimedia Integration Framework (DMIF)。
2.2 MPEG-4 標準的范圍和特點(diǎn)
MPEG-4標準提供了一整套技術(shù)來(lái)滿(mǎn)足作者的需要、服務(wù)提供商和最終用戶(hù)的偏好。
*對于作者來(lái)講,MPEG-4使得基于內容的產(chǎn)品成為現實(shí),這種產(chǎn)品具有大得多的可用性,具有比現在的獨立技術(shù)例如數字電視、動(dòng)態(tài)圖象、WWW網(wǎng)頁(yè)及其擴展技術(shù)所能提供的更大的靈活性。而且,現在有可能進(jìn)行更好的管理和著(zhù)作權的保護。
*對于網(wǎng)絡(luò )服務(wù)提供商來(lái)說(shuō),MPEG-4提供了透明的信息,它能夠在相對標準的實(shí)體的幫助下解釋并翻譯成每個(gè)網(wǎng)絡(luò )相應的本地信號訊息。不僅預先考慮到服務(wù)質(zhì)量(QoS),MPEG-4還為不同的媒介提供一個(gè)通用的QoS描述符。為每種媒質(zhì)從QoS的參數設置到網(wǎng)絡(luò )服務(wù)質(zhì)量的精確翻譯超出了MPEG-4的范圍,留給了網(wǎng)絡(luò )提供商。端到端的發(fā)送MPEG-4媒質(zhì) QoS描述符就能夠在異種網(wǎng)絡(luò )間進(jìn)行傳輸優(yōu)化。
* 對于最終用戶(hù)來(lái)說(shuō),MPEG-4在作者所置的限制內提供更高水平的內容交互。它也為新興網(wǎng)絡(luò ),包括那些應用相對低速率的網(wǎng)絡(luò )以及移動(dòng)網(wǎng)絡(luò )提供多媒體服務(wù)。MPEG主頁(yè)上的一份MPEG-4應用文檔描述了很多最終用戶(hù)應用,包括交互式多媒體廣播和移動(dòng)通信。
對所有相關(guān)方面,MPEG力求避免大量的所有權、非交錯格式和播放器的使用。為實(shí)現以上目標,MPEG-4提供標準化方式來(lái):
1. 代表語(yǔ)音、視覺(jué)或語(yǔ)音視覺(jué)內容的單元,稱(chēng)為媒體對象。這些媒體對象可能來(lái)自自然或合成源;這就是說(shuō)他們能夠被相機或話(huà)筒所記錄,或者由計算機產(chǎn)生;
2. 描述這些對象的組合以創(chuàng )建構成語(yǔ)音視頻屏幕的組合媒體對象;
3. 復用和同步與媒體對象相關(guān)的數據,這樣他們能在提供了適于特殊媒體對象特性的QoS的網(wǎng)絡(luò )通道上傳輸;而且
4. 與接收端產(chǎn)生的語(yǔ)音視頻景象交互。
2.2.1 媒體對象的編碼表示
MPEG-4 語(yǔ)音視頻場(chǎng)景由一些媒體對象組成,以分層方式組織起來(lái)。在這層次結構中,我們找到了基本的媒體對象,例如:
* 靜態(tài)圖象(例如固定背景)
* 視頻對象(例如正在說(shuō)話(huà)的人-沒(méi)有背景)
* 語(yǔ)音對象(例如和這個(gè)人相關(guān)的聲音)
MPEG-4把這樣大量的能夠表現2-D或3-D自然和合成內容類(lèi)型的基本媒體對象標準化。附加在上面提到的、除媒體對象之外,MPEG-4定義了如下對象的編碼表示法,
* 文本和圖形;
* 文本和圖形;
* 用來(lái)合成語(yǔ)言和運動(dòng)頭部的正在講話(huà)的合成的頭部和相關(guān)的文本;
* 合成的聲音
編碼形式的媒體對象是由在語(yǔ)音視頻景象中處理該對象的描述元素和相關(guān)流數據組成。重要的是在編碼形式下每個(gè)媒體對象都能獨立與它的環(huán)境或背景獨立表現??紤]到要求的功能,這種媒體對象的編碼表示法是盡可能的高效的。這些功能包括差錯魯棒性、易釋性和可編輯性。
2.2.2 媒體對象的組合
基本媒體對象相應于描述樹(shù)中的葉子,而組合媒體對象包含了整個(gè)子樹(shù)。例如:相應于正在說(shuō)話(huà)的人的視頻對象和相應的聲音捆綁在一起形成一個(gè)新的組合媒體對象,包含了那個(gè)人的語(yǔ)音和視頻部分。
* 這樣的組成允許作者構建復雜的景象,使客戶(hù)能處理有意義的對象。
* 更普遍地,MPEG-4提供了一種描述景象的標準化方式,例如允許:
* 在給定坐標系內隨處放置媒體對象;
* 應用變換來(lái)改變媒體對象的幾何和聲學(xué)表現;
* 整合基本媒體對象以形成組合媒體對象;
* 應用流數據于媒體對象以更改屬性(例如聲音,屬于某對象的移動(dòng)中的文本,驅動(dòng)合成面孔的動(dòng)態(tài)參數成面孔的動(dòng)態(tài)參數;
* 交互式地改變用戶(hù)在景象中的任何視聽(tīng)點(diǎn)。
景象描述是建立在來(lái)自于對象合成結點(diǎn)的結構和功能意義上的虛擬現實(shí)(VRML)的一些基本概念而且擴展為完全實(shí)現上述特點(diǎn)。
2.2.3 媒體對象流數據的描述和同步
一個(gè)MPEG-4影音場(chǎng)景的例子媒體對象可能需要在一個(gè)或多個(gè)基本流中傳輸的流數據。對象描述符把與媒體對象相關(guān)的所有流中區分開(kāi)來(lái)。這就允許處理分層編碼數據、內容變化信息的聯(lián)系(稱(chēng)?quot;對象內容信息)和相關(guān)的知識產(chǎn)權。每個(gè)流自身由一套配置信息的描述符所區別,例如用來(lái)決定需要編碼源和編碼的時(shí)間信息精度。而且描述符可以攜帶傳輸需要的QoS的線(xiàn)索(例如最大位速率、位差錯速率、優(yōu)先級等)?;玖鞯耐绞峭ㄟ^(guò)基本流內單個(gè)訪(fǎng)問(wèn)單元的時(shí)標實(shí)現的。同步層管碚庋的訪(fǎng)問(wèn)單元和時(shí)標的識別。獨立于媒體類(lèi)型之外,該層允許識別出訪(fǎng)問(wèn)單元的類(lèi)型恢復媒體對象或景象描述的時(shí)基,而且能在其間實(shí)現同步。該層的語(yǔ)法可以多種方式配置,允許在許多系統中使用?
2.2.4 流數據的傳輸
在不同QoS的網(wǎng)絡(luò )中從源到目的的流信息的同步傳輸,是由上述的同步層和包含兩子層的復合傳輸層確定的。第一個(gè)復用層根據MPEG-4標準的Part6中的DMIF規范進(jìn)行管理。這種復用可在MPEG定義的FlexMux工具中體現,該工具允許以低復用費用組合基本流(ESS)。例如該層的復用可用來(lái)組合相似QoS需求的基本流,減少網(wǎng)絡(luò )連接數或者端-端延遲,TransMux(傳輸復用)層搭建了提供匹配需求QoS的傳輸服務(wù)的層。MPEG-4僅確定了該層的接口而具體的數據包和控制信號的規劃必須與各傳輸協(xié)議上有權的實(shí)體進(jìn)行協(xié)商。任何現存的合適的傳輸協(xié)議棧,例如(RTP)/UDP/IP、(AAL5)/ATM或者M(jìn)PEG-2在適合鏈路層上的傳輸流都可能成為T(mén)ransMux的實(shí)例。選擇權留給了最終用戶(hù)和服務(wù)提供商,而允許MPEG-4用于廣泛的運行環(huán)境中。
FlexMux復用工具的使用是可選的,如果下層的TransMux實(shí)例提供了所有要求的功能,該層必須為空。而同步層總是存在的。以下是可行的:
1. 識別訪(fǎng)問(wèn)單元,傳輸時(shí)標和時(shí)鐘參考信息以及檢測數據丟失;
2. 傳輸控制信息以實(shí)現:
* 為每個(gè)基本流和FlexMux流指示需要的QoS;
* 翻譯這樣的QoS需求為實(shí)際網(wǎng)絡(luò )資源;
* 連接基本流到媒體對象;
* 轉換基本流的映射為FlexMux和TransMux通道。
部分控制功能在和DMIF框架這樣的傳輸控制實(shí)體聯(lián)結后才可實(shí)現。
2.2.5 與媒體對象交互
總體來(lái)說(shuō)用戶(hù)看到的是依據作者設計組合而成的影象。然而,用戶(hù)和影象交互的可能性依賴(lài)于作者所允許的自由度。用戶(hù)可能被允許進(jìn)行的操作包括:
* 改變景象的視/聽(tīng)點(diǎn),例如在景象中漫游;
* 把景象中的對象拖到不同的位置上;
* 點(diǎn)擊特定對象以觸發(fā)一系列事件,例如開(kāi)始或終止視頻流;
* 多語(yǔ)言音軌時(shí)選擇想要的語(yǔ)言。
更復雜的動(dòng)作也能被觸發(fā),例如一個(gè)虛擬的電話(huà)鈴響,用戶(hù)接聽(tīng)并建立通信鏈路。
2.2.6 知識產(chǎn)權的管理和識別
能夠在MPEG-4媒體對象中識別出知識產(chǎn)權是重要的。為支持這一點(diǎn),MPEG與不同制造商的代表就語(yǔ)法定義和工具進(jìn)行合作。MPEG-4通過(guò)存儲唯一標識來(lái)實(shí)現識別,該標識由國際編號系統公布。該數字可用于識別媒體對象的當前所有者。因為并非所有的內容都由此數字識別,MPEG-4 Version1提供用關(guān)鍵值對來(lái)識別知識產(chǎn)權的可能。而且MPEG-4為想使用控制訪(fǎng)問(wèn)知識產(chǎn)權的系統的人提供一個(gè)緊密結合進(jìn)系統層的標準化系統的人提供一個(gè)緊密結合進(jìn)系統層的標準化接口。通過(guò)該接口,所有權控制系統可輕易地與解碼器的標準化部分組合。
2.3 MPEG-4 標準的技術(shù)細節
顯示了從網(wǎng)絡(luò )(或存儲設備)來(lái)的流作為T(mén)ransMux流,復用為FlexMux流并傳給適當的獲取基本流的FlexMux解復器的?;玖鳎‥S)被解析并傳遞給適當的解碼器。解碼是從編碼形式中恢復出AV對象中的數據并進(jìn)行必要的操作以重建初始的AV對象以備在適當設備上演示。重建的AV對象可為影象演示中的潛在需要組合成層。解碼的AV對象和影象描述信息都被用來(lái)組合作者所描述的影象。用戶(hù)可在作者允許的程度上與最終演示展現的影象交互。
2.3.1 傳輸多媒體集成框架DMIF
傳輸多媒體集成框架DMIF(Delivery Multimedia Integration Framework)是在通用傳輸技術(shù)上的管理多媒體流的會(huì )話(huà)協(xié)議。原理上與FTP相似,唯一也是基本的差別是FTP返回數據,DMIF返回獲?。鳎祿闹羔?。類(lèi)似地,當DMIF運行時(shí),第一個(gè)動(dòng)作是和遠端建立會(huì )話(huà)。然后,選擇流并發(fā)要求(request)流注,DMIF對端將返回連接流注點(diǎn)的指針,并建立連接。
MPEG-4終端(接收側)的主要部分與FTP相比,DMIF既是框架又是協(xié)議。DMIF提供的功能是由稱(chēng)為DMIF應用接口(DAI)的接口來(lái)表達,并翻譯為協(xié)議消息。這些協(xié)議消息可能基于運行的網(wǎng)絡(luò )而不同。服務(wù)質(zhì)量同樣為DMIF設計所考慮,DAI允許DMIF用戶(hù)為所需的流指定要求。這樣就要求DMIF執行時(shí)保證要求得以實(shí)現。DMIF規格提供了在幾個(gè)新網(wǎng)絡(luò )類(lèi)型,例如Internet上實(shí)現該任務(wù)的線(xiàn)索。
DAI也用來(lái)訪(fǎng)問(wèn)廣播介質(zhì)和本地文件,這意味著(zhù)在多傳輸技術(shù)上定義訪(fǎng)問(wèn)多媒體內容的單一、統一的接口 。
因此,我們適合這樣說(shuō),DMIF的集成框架涵蓋了三種主要技術(shù),交互網(wǎng)絡(luò )技術(shù)、廣播技術(shù)和磁盤(pán)技術(shù)。DMIF如此以至依賴(lài)于DMIF通信的應用不必關(guān)心底層的通信方法。DMIF執行以處理關(guān)于簡(jiǎn)單應用接口的傳輸技術(shù)細節。應用通過(guò)DMIF應用接口訪(fǎng)問(wèn)數據,無(wú)論該數據來(lái)自廣播源、本地存儲器或遠端服務(wù)器。在所有的情況下本地應用只通過(guò)統一接口(DAI)交互。不同的DMIF實(shí)例考慮到采用傳輸技術(shù)的特性把本地應用翻譯為送至遠端應用的特定消息。類(lèi)似地,(從遠端服務(wù)器、廣播網(wǎng)絡(luò )或消息。類(lèi)似地,(從遠端服務(wù)器、廣播網(wǎng)絡(luò )或本地文件)進(jìn)入終端的數據通過(guò)DAI統一地傳給本地應用。不同的、特定的DMIF實(shí)例被管理各種特定傳輸技術(shù)的應用喚醒,雖然這對于應用是通明的,它只是和單一的DMIF過(guò)濾器交互。該過(guò)濾器負責為特定DAI向正確的實(shí)例粗定向。DMIF不規定該機制,只假設它是運行的。這在該圖的陰影框內有所強調,目的是澄清DMIF應用的邊界,此時(shí)DMIF通信構架定義了若干模塊,實(shí)際的DMIF應用只需要在邊界上保持他們的表現。這樣,通過(guò)例如基于IP的或ATM的網(wǎng)絡(luò )訪(fǎng)問(wèn)的真實(shí)的遠程應用,和從廣播源或磁盤(pán)獲取內容的模擬遠端制造者應用。然而在前一種情況中,兩實(shí)體間交換的信息必須規范定義以確?;ゲ僮餍?。在后一種情況中,兩個(gè)DMIF實(shí)體間的接口和模擬遠端應用在單一實(shí)現中不需考慮該規范。對于廣播和本地存儲,該圖展示了一條本地DMIF、遠端DMIF(模擬)、遠端應用(模擬)的鏈條。該鏈條只表達概念化模型而不需對應為實(shí)際實(shí)現(全部在陰影區內)。
DMIF構架考慮廣播和本地存儲時(shí),假設模擬遠端應用了解數據如何發(fā)送和存儲。如何可以得到處理中的應用種類(lèi)的信息。對于MPEG-4,這實(shí)際就是如基本流ID、首對象描述符、服務(wù)名之類(lèi)的概念。雖然DMIF層理論上不了解正提供支持的應用,由于(模擬)遠端應用的存在,對廣播和本地存儲等特殊情況該概念并不完全正確 。因為(模擬)遠端應用不了解數據是如何傳送/存儲的,對于這樣的DMIF應用數據傳送/存儲的細致描述是無(wú)意義的。
而當考慮遠端交互時(shí),DMIF層是完全不了解應用的。引入附加接口-DMIF網(wǎng)絡(luò )接口(DNI )以確定DMIF對需要交換何種信息。該附加模塊負責把DNI原語(yǔ)映射為特定網(wǎng)絡(luò )使用的消息。應當注意DNI原語(yǔ)只是為信息目的所指定,并不需要在實(shí)際應用中表現DNI接口。為了支持相同的終端多傳輸技術(shù)甚至多場(chǎng)景(廣播、本地存儲器、遠端交互),DMIF支持允許一個(gè)或多個(gè)DMIF實(shí)例同時(shí)出現,每個(gè)面對特定的傳輸技術(shù)。多傳輸技術(shù)可被相同應用激活,這樣就能夠管理被廣播網(wǎng)絡(luò )、本地文件系統和遠端交互點(diǎn)傳送的數據。
2.3.2 流數據的多路復用,同步和描述
必須要在傳輸層從網(wǎng)絡(luò )連接或存儲設備來(lái)的數據中獲得各基本流。在MPEG-4系統模型中每個(gè)網(wǎng)絡(luò )連接或文件被單獨看成一個(gè)TransMux通道。依應用而異復用部分或完全地作用于MPEG-4范圍之外的層。MPEG-4唯一定義的復用工具是FlexMux工具,它對于低延遲、低負載復用及為節省網(wǎng)絡(luò )連接資源來(lái)說(shuō)是可選的。
為了在系統環(huán)境中集成MPEG-4的目的,DMIF應用接口成為可作為同步層--打包流訪(fǎng)問(wèn)的基本流的參考點(diǎn)。DMIF網(wǎng)絡(luò )接口確定了同步層-打包流-無(wú)FlexMux或FlexMux流如何從TransMux層得到的。這就是不被MPEG定義的傳輸功能的接口。這里考慮接口的數據部分,控制部分由DMIF處理。
與MPEG-1和MPEG-2以位流語(yǔ)法和語(yǔ)意描述理想解碼設備的方式相同,MPEG-4定義了系統解碼模型。這就允許不做非必要假設和精確細節準確定義終端操作。這對于以不同方式自由地實(shí)現設計真實(shí)MPEG-4終端和解碼設備是必要的。這些設備包括從不能與發(fā)端通信的電視接收機到能完全雙向交互的計算機。一些設備通過(guò)同步網(wǎng)絡(luò )MPEG-4流,另一些通過(guò)非同步方式(例如Internet)交換MPEG-4信息。系統編碼模塊提供所有MPEG-4終端應用基于的通用模塊。確定緩沖和延遲模型對不知道如何接收編碼流的編碼設備是必要的。雖然MPEG-4使編碼設備可通知資源需求的解碼設備,如前所述,該設備也可能不響應發(fā)端。同樣有可能一個(gè)MPEG-4會(huì )話(huà)同時(shí)接受不同設備的信息。但這將根據設備的容量來(lái)進(jìn)行。
2.3.3 語(yǔ)法描述
MPEG-4定義了一種語(yǔ)法描述語(yǔ)言來(lái)描述位流傳送媒體對象和景象描述信息位流的精確位語(yǔ)法。該語(yǔ)言從C語(yǔ)言出發(fā),是C++語(yǔ)言的擴展,用來(lái)以綜合方式描述對象的句法表達、所有媒體對象的類(lèi)定義和景象描述信息。這提供了精確地恒定統一描述語(yǔ)法的方式,同時(shí)簡(jiǎn)化位流依從測試。軟件工具可用來(lái)進(jìn)行語(yǔ)法描述,產(chǎn)生進(jìn)行判定的程序的必要代碼。
2.3.4音頻對象編碼
MPEG-4音頻對象編碼為表達自然聲音(例如話(huà)音和音樂(lè ))和基于機構化描述的合成聲音都提供工具。合成聲音的表達可從文本數據或所謂的結構描述,以編碼參數提供反射、空間定向等效果的方式實(shí)現。該方式提供壓縮和其他例如可伸縮性和效果處理等其他功能。覆蓋6kbit/s到24kbit/s速率的MPEG-4語(yǔ)音編碼工具已和NADIB合作通過(guò)AM數字語(yǔ)音廣播 應用檢驗性測試。為辯識合適的數字語(yǔ)音廣播格式以改進(jìn)現有的AM模式服務(wù),包括MPEG-4 CELP、TwinVQ、和AAC工具一些編碼設置與一個(gè)參考AM系統進(jìn)行了比較。發(fā)現數字技術(shù)可在同樣帶寬上實(shí)現更高質(zhì)量,而且編碼設置提供了優(yōu)于聯(lián)播的效果。MPEG還進(jìn)行了附加檢驗測試,把話(huà)音和普通語(yǔ)音編碼的工具與現存標準進(jìn)行比較。
2.3.5 視頻對象(VO)編碼
為了支持基于內容的交互性,即支持對內容(場(chǎng)景中的物理對象)獨立地進(jìn)行編解碼,MPE G-4視頻檢驗模型(即發(fā)展完善中的視頻編碼算法和工具集)引入了視頻對象面(VOP)的概念。假設輸入的視頻序列的每一幀都被分割成多個(gè)任意形狀的圖像區域(視頻對象面),每個(gè)區域可能覆蓋場(chǎng)景中特定的感興趣的圖像或視頻內容。輸入進(jìn)行編碼的VOP可以是任意形狀的,且形狀和位置可隨幀而變。屬于場(chǎng)景中同一物理對象的連續VOP序列稱(chēng)為視頻對象(VO)。同一視頻對象的VOP序列的形狀、運動(dòng)和紋理信息被編碼傳輸,或者編碼為一個(gè)隔離的視頻對象層(VOL)。除此之外,辨別各個(gè)視頻對象層,以及接收端合成不同的視頻對象層以重建完整的原序列所需的相關(guān)信息也包含在比特流中。這使得可以對每個(gè)VOP獨立地進(jìn)行編解碼,且可以對視頻序列進(jìn)行靈活操作。輸入進(jìn)行編碼的源視頻對象序列可以是獨立實(shí)體,也可以由在線(xiàn)或脫線(xiàn)的分割算法產(chǎn)生。
有些多媒體業(yè)務(wù)需要提供面向對象的操作和編輯功能,如遠程數據庫訪(fǎng)問(wèn)、視頻編輯等。 有些情況下,人們只對場(chǎng)景中的某個(gè)對象感興趣,如多媒體會(huì )議,人們感興趣的只是與會(huì )者的頭肩像,而不關(guān)心背景。因此,為了節省帶寬,可以只傳送頭肩像的視頻信息,接收端再把收到的頭肩像信息解碼重建,并置于一間虛擬會(huì )議室中?;趦热莸囊曨l編碼系統可以在比特流層支持這種基于對象的訪(fǎng)問(wèn)和操作功能。
有兩種類(lèi)型的視頻編碼系統支持基于內容的交互性,一種是模型基編碼;另一種是在傳統 的基于塊的視頻編碼系統的基礎上擴充而成的。對于前者,在此不做討論。而后者則是傳統的,基于塊的混合運動(dòng)預測/補嘗編碼系統擴展到任意形狀的視頻序列而成的。傳統的、基于塊的編碼方法已被MPEG-1/2和H.261/3等標準所采用。這種系統主要由場(chǎng)景分析和對象分割、形狀編碼、運動(dòng)編碼、紋理編碼等模塊構成,具體的編碼算法則做為實(shí)現系統中各個(gè)功能模塊的工具,可根據實(shí)際需要選取組合。首先對輸入的原圖像序列進(jìn)行場(chǎng)景分析和對象分割,以劃分不同的VOP,得到各個(gè)VOP的形狀和位置信息。VOP的形狀和位置信息可以用上文提到的alpha平面來(lái)表示。發(fā)送端只需傳送alpha平面,接收端就可以確定VOP的形狀和位置。alpha平面所需的比特數是比較多的,需要進(jìn)行壓縮編碼。顯然,只要對VOP的輪廓進(jìn)行編碼和傳送,接收端就可以恢復alpha平面,輪廓信息在輪廓編碼器中進(jìn)行編碼。提取出的形狀和位置信息又用來(lái)控制VOP的運動(dòng)和紋理編碼。對運動(dòng)和紋理信息編碼仍然采用經(jīng)典的類(lèi)似 停校牛嗆H.261/3標準的運動(dòng)預測/補償法。輸入的第N幀的VOP與幀存儲器中存儲的N-1幀的VOP進(jìn)行比較,找到運動(dòng)矢量,然后對兩幀VOP的差值進(jìn)行量化、編碼 。對不同對象的運動(dòng)和紋理信息的編碼可因地制宜地采用不同的方法,以提高編碼效率。編碼后得到的紋理信息,與運動(dòng)編碼器和形狀編碼器輸出的運動(dòng)信息和形狀信息復接形成該VOP的比特流層。不同視頻對象的VOP序列分別進(jìn)行編碼,形成各自的比特流層,經(jīng)復接后在信道上傳送。傳送的順序依次為形狀信息、運動(dòng)信息和紋理信息。接收端的解碼過(guò)程是編碼過(guò)程的逆操作。當VOP的形狀為矩形時(shí),不需要進(jìn)行形狀編碼,該系統退化為傳統的規則形狀的視頻編碼系統,保持了后向兼容性基于內容的視頻編碼技術(shù),可以對任意形狀的視頻對象序列進(jìn)行編碼,編碼后的視頻對象的比特流以對象層的形式而存在。同一場(chǎng)景中的不同視頻對象可分別獨立地進(jìn)行編碼和傳輸,因此,接收端可獨立地有選擇地解碼和重建視頻對象,也可靈活地在比特流層對視頻對象進(jìn)行操作而改變原場(chǎng)景?;趦热莸囊曨l編碼技術(shù)在遠程監控、移動(dòng)多媒體、信息娛樂(lè )(infotainment)、多媒體會(huì )議、交互購物、電影和電視的后期制作、虛擬現實(shí)、計算機支持的協(xié)同工作(CSCW)等領(lǐng)域具有十分廣闊的應用前景,它必然對多媒體事業(yè)產(chǎn)生巨大的沖擊
三.應用部分
3.1 MPEG-4技術(shù)動(dòng)態(tài)
ACTS是歐洲的一個(gè)研究與技術(shù)開(kāi)發(fā)組織,其MCM子組的工作與MPEG-4系統、算法和工具、 臉部特征跟蹤及動(dòng)畫(huà)等密切相關(guān)。目前項目研究和開(kāi)發(fā)一族PSTN等低比特率可視電話(huà)視頻編碼算法,允許異質(zhì)網(wǎng)間視頻會(huì )議的比特流可伸縮性。
VIDAS項目為時(shí)間相關(guān)表現、編碼和AV流操縱設計一個(gè)合適算法,在可視電話(huà)場(chǎng)景(編碼器)分析、(解碼器)合成時(shí)充分利用語(yǔ)音和臉動(dòng)的相關(guān)性,在真實(shí)幀之間插入合成幀提高幀率,平滑顯示與語(yǔ)音同步的唇部運動(dòng),面向分布式創(chuàng )作和分布式虛擬現實(shí)。藍室(BlueRoom)、計算機、合成三者可分布在不同地點(diǎn),藍室視頻信號、控制信號和跟蹤信號由遠地傳來(lái),而背景和動(dòng)畫(huà)則在本地實(shí)時(shí)繪制,它們與藍室視頻信號合成后生成最終信號。分布式虛擬現實(shí)系統中一次性傳送基本3D模型,然后只傳輸動(dòng)態(tài)交互引起的模型變化量,人們通過(guò)高速網(wǎng)絡(luò )可以在虛擬世界里交互。最近東芝公司推出首款基于MPEG-4視頻流系統MobileMotion套件,包括Motion套件,包括MPEG-4產(chǎn)品、服務(wù)器和播放器軟件,用于Internet/Intranet上構建視頻和多媒體應用,支持CIF和亞1/4CIF,6kbps-384kbps時(shí)每秒可處理30幀視頻數據。
3.2 MPEG-4及其在VOD業(yè)務(wù)中的應用
視頻點(diǎn)播是近年發(fā)展起來(lái)的基于多媒體技術(shù)的交互式服務(wù)方式,VOD是以數字壓縮技術(shù)為基礎、網(wǎng)絡(luò )與多媒體技術(shù)相結合的交互電視系統。VOD業(yè)務(wù)是指用戶(hù)可以從自己的終端(機頂盒、普通模擬電視機)上申請所需信息,提供服務(wù)的部門(mén)按用戶(hù)需要提供有關(guān)信息。VOD業(yè)務(wù)主要有影視選播、電視購物、遠程教學(xué)、遠程醫療、電子圖書(shū)館和交互式電子游戲等。目前流行的VOD系統主要采用MPEG-2編碼標準。這種標準的畫(huà)面質(zhì)量好,壓縮比高。然而MPEG-2標準在VOD業(yè)務(wù)的應用中也暴露出其不足方面:基于宏塊和幀的編碼方式限制了對內容的交互操作、壓縮效率仍不理想、窄帶網(wǎng)上的傳輸質(zhì)量受到限制和對媒體的兼容能力有待提高等。因此VOD業(yè)務(wù)的發(fā)展急需一種以多媒體應用為目標的新一代編碼標準。
MPEG-4基于對象編碼的技術(shù)特點(diǎn)和它可實(shí)現的功能,在VOD業(yè)務(wù)中有很大的應用潛力。同采用MPEG-2標準的VOD業(yè)務(wù)相比,基于MPEG-4的VOD業(yè)務(wù)具有以下特點(diǎn):
(1)圖像主觀(guān)質(zhì)量更好由于采用基于視頻對象的編碼方式,編碼時(shí)可以根據人眼的視覺(jué)特性,區分不同視頻對象的主次關(guān)系,合理安排壓縮比。與現存的標準相比,這種編碼方式容易獲得更好的圖像主觀(guān)質(zhì)量。
(2)交互性更完善
MPEG-4VOD用戶(hù)突破了傳統上基于幀進(jìn)行操作的限制,可以根據各自的需求,針對幀中的某一個(gè)視頻對象,進(jìn)行平移、旋轉、縮放、剪帖和檢索等交互式操作,使交互性能有了質(zhì)的飛躍。這種基于對象的交互操作,使用戶(hù)能根據某一具體畫(huà)面(如某種植物)查詢(xún)相關(guān)內容,或是查詢(xún)畫(huà)面中某一物質(zhì)對象的其它資料(即VOD電子圖書(shū)館業(yè)務(wù))。用戶(hù)還可放大自己存放在醫院的X光照片,取出自己關(guān)心的那部分畫(huà)面仔細觀(guān)察(即VOD遠程醫療業(yè)務(wù))等等。
(3)靈活性更大
VOD業(yè)務(wù)部門(mén)可以根據不同地域的具體條件、使用不同的傳輸網(wǎng)絡(luò )(如HDSL、ADSL、HFC和FTTH/FTTC等),開(kāi)展VOD業(yè)務(wù)。VOD用戶(hù)也可以對音/視頻的質(zhì)量、實(shí)時(shí)性和接入網(wǎng)方式等作自由選擇。
(4)多媒體兼容能力更強
MPEG-4不但支持自然音頻、視頻,而且支持自然和合成的混合音頻、視頻。在VOD電子游戲中,用戶(hù)可以利用自然的音頻和視頻創(chuàng )作動(dòng)畫(huà)和合成聲音。在VOD影視節目點(diǎn)播中,用戶(hù)可以在畫(huà)面上選擇疊加自己母語(yǔ)的字幕,或者疊加其它文字信息(如股票行情等)。
對于采用MPEG-4標準的VOD系統,還可以利用MPEG-4多個(gè)并行數據流編碼技術(shù)提供的多視點(diǎn)編碼功能,開(kāi)展虛擬現實(shí)游戲、三維電影和多視角演示等其它新業(yè)務(wù)。也可以利用音頻編碼的TTS功能,提高遠程教學(xué)的質(zhì)量。
此外,尚待解決的主要技術(shù)問(wèn)題有:
(1)為了適應MPEG-規定的5kbps~4Mbps視頻速率范圍,為用戶(hù)提供高質(zhì)量乃至DVD質(zhì)量的圖像,目前的圖像壓縮技術(shù)仍需進(jìn)一步提高。
(2)為了實(shí)現基于視頻對象的交互操作,需要解決如何定義、描述、劃分和分離視頻對象
的問(wèn)題。
MPEG-4標準具有比現存標準更好的主觀(guān)畫(huà)面質(zhì)量、更完善的交互性能、更強的媒體兼容能力和更大的靈活性。將MPEG-4用于VOD業(yè)務(wù),一方面可以發(fā)揮它在多媒體應用方面的優(yōu)勢,另一方面也可以提高VOD業(yè)務(wù)的質(zhì)量,拓寬VOD業(yè)務(wù)的范圍。隨著(zhù)數據壓縮技術(shù)的不斷發(fā)展,MPEG-4必將成為VOD系統編解碼技術(shù)的核心標準
3.3 MPEG-4在無(wú)線(xiàn)/移動(dòng)多媒體通信中的應用
ISO/IEC正在進(jìn)行標準化的MPEG-4是一種可用于通信、廣播和計算機等諸多領(lǐng)域的通用多媒體編碼方式 ,1997年10月已公布了草案,正式標準(第1版)于1998年12月頒布。MPEG-1和MPEG-2是以CD-ROM和DVD等存儲媒體以及廣播系統的高質(zhì)量、高比特率(2Mbps以上)為對象的音頻和視頻編碼方式,已完成標準化。
MPEG-4則尤為重視壓縮效率,是一種能用于低比特率(64kbps以下)的編碼方式,對傳輸誤差有較強的耐受性。
另一方面,ITU-T還推進(jìn)模擬電話(huà)線(xiàn)路所用多媒體通信終端的標準方式(H-324)與無(wú)線(xiàn)/移動(dòng)通信相對應, 準備將之作為H 324AnnexC,加以標準化。具體說(shuō)來(lái),就是對H- 324中所用H 223(在一個(gè)分組內對聲音和圖像進(jìn)行多路復用方式)的抗誤差性進(jìn)行分級強化,分別作為H 223AnnexA、AnnexB和AnnexC進(jìn)行標準化(下文中AnnexA、B、C統稱(chēng)Annex)。目前,就多媒體通信所必需的多路復用方式而言,除了MPEG-4外,ISO還能夠采用H 223和MPEG 2TS(傳輸流)等已有的多路復用方式。因此,為了在無(wú)線(xiàn)/移動(dòng)環(huán)境中實(shí)現多媒體通信,有必要將具有抗誤差性的ISO標準MPEG 4編碼方式與ITU-T標準H 223Annex多路復用方式 結合起來(lái)。
圖1多媒體通信網(wǎng)絡(luò )范例
圖1給出了包含無(wú)線(xiàn)/移動(dòng)通信系統的多媒體通信網(wǎng)絡(luò )范例。本例中,便攜式終端通過(guò)各種網(wǎng)絡(luò )實(shí)現電視電話(huà)、圖像監視和圖像瀏覽等功能。把便攜式終端和電視攝像裝置獲取的圖像存儲在服務(wù)話(huà)、圖像監視和圖像瀏覽等功能。把便攜式終端和電視攝像裝置獲取的圖像存儲在服務(wù)器中,并建立數據庫,利用因特網(wǎng)進(jìn)行信息分配,從而使其他便攜式終端用戶(hù)也能夠看到這些圖像。圖像傳輸是多媒體通信的核心,采用何種圖像編碼方式是構筑多媒體網(wǎng)絡(luò )的關(guān)鍵。特別是在用于要求實(shí)時(shí)性的電視電話(huà)和廣播業(yè)場(chǎng)合,不能在收發(fā)方之間進(jìn)行信息重發(fā)和到達確認等特殊控制,因此MPEG-4圖像編碼方式是比較理想的,它無(wú)需這種控制,且抗誤差性較強。對應于不同的網(wǎng)絡(luò ),多媒體信息傳輸時(shí)所需的多路復用方式有很多種。例如,因特網(wǎng)等分組網(wǎng)通常用不同的分組分別傳送聲音和圖像,并通過(guò)內藏于各媒體的時(shí)間標記,各自取得同步的H 225多路復用方式或MPEG2TS多路復用方式。在使用模擬電話(huà)線(xiàn)路電視電話(huà)的場(chǎng)合,在同一分組內對聲音和圖像進(jìn)行多路復用的H.223方式已經(jīng)成為ITU-T標準。另外,在無(wú)線(xiàn)/移動(dòng)環(huán)境中,具有抗誤差性的H 223Annex多路復用方式也是行之有效的。
因此,在構筑多媒體網(wǎng)絡(luò )時(shí),可以采用抗傳輸誤差性能較強的MPEG-4作為圖像編碼方式,而多路復用則采用與各網(wǎng)絡(luò )相適應的方式。這樣,當通過(guò)不同的網(wǎng)絡(luò )進(jìn)行圖像傳輸時(shí),只需調換多路復用方式就可以了。
參考文獻
* 劉占平,董士海 MPEG-4標準及相關(guān)進(jìn)展 中國圖象圖形學(xué)報1999.06>
* 岳云 MPEG-4在無(wú)線(xiàn)/移動(dòng)多媒體通信中的應用 電信快報1999.09>
* 唐冬,鄭善賢 MPEG-4及其在VOD業(yè)務(wù)中的應用 電信快報1999.09>
* 翁南釤,蔡德鈞,容太平 基于內容的視頻編碼技術(shù) 通信技術(shù)1999.03>
* 夏天,陳磊,余兆明 MPEG-4的基于內容的視頻編碼技術(shù) 電子工程師1999.10>
* Rob Koenen Overview of the MPEG-4 Standard Stockholm - July 1997
* MPEG -4 FAQs ISO/IEC JTC1/SC29/WG11 N MPEG 97/ July 1997
* Rob Koenen MPEG-4 Overview - (Melbourne Version) October 1999/Melbourne
c語(yǔ)言相關(guān)文章:c語(yǔ)言教程
c++相關(guān)文章:c++教程
評論