數字音頻技術(shù)知識點(diǎn)及聲卡驅動(dòng)
關(guān)于PCM
本文引用地址:http://dyxdggzs.com/article/201710/365580.htmPCM是Pulse code modulaTIon的縮寫(xiě),它是對波形最直接的編碼方式。它在音頻中的地位可能和BMP在圖片中的地位有點(diǎn)類(lèi)似吧。
Sampling rate:從模擬信號到數字信號,即從連續信號到離散信號的轉換都是通過(guò)離散采樣完成的,Sampling rate就是每秒種采樣的個(gè)數。根據香農采樣定理,要保證信號不失真,Sampling rate要大于信號最高頻率的兩倍。我們知道人的耳朵能聽(tīng)到的頻率范圍是20hz – 20khz,所以Sampling rate達到40k就夠了,再多了也只是浪費。但是有時(shí)為了節省帶寬和存儲資源,可以降低Sampling rate而損失聲音的質(zhì)量,所以我們常常見(jiàn)到小于40k采樣率的聲音數據。
Sample size:用來(lái)量化一個(gè)采樣的幅度,一般為8 bits、16 bits和24 bits。8 bits只有早期的聲卡支持,而24 bits只有專(zhuān)業(yè)的聲卡才支持,我們用的一般都是16 bits的。
Number of channels:聲音通道個(gè)數,單聲道為一個(gè),立體聲為兩個(gè),還有更多的(如8個(gè)聲道的7.1格式)。一般來(lái)說(shuō),每個(gè)聲道都來(lái)源于一個(gè)獨立的mic,所以聲道多效果會(huì )更好(更真實(shí)),當然代價(jià)也更大。
Frame: Frame是指包含了所有通道的一次采樣數據,比如對于16bits的雙聲道來(lái)說(shuō),一個(gè)frame的大小為4個(gè)字節(2 * 16)。
一、數字音頻
音頻信號是一種連續變化的模擬信號,但計算機只能處理和記錄二進(jìn)制的數字信號,由自然音源得到的音頻信號必須經(jīng)過(guò)一定的變換,成為數字音頻信號之后,才能送到計算機中作進(jìn)一步的處理。
數字音頻系統通過(guò)將聲波的波型轉換成一系列二進(jìn)制數據,來(lái)實(shí)現對原始聲音的重現,實(shí)現這一步驟的設備常被稱(chēng)為模/數轉換器(A/D)。A/D轉換器以每秒鐘上萬(wàn)次的速率對聲波進(jìn)行采樣,每個(gè)采樣點(diǎn)都記錄下了原始模擬聲波在某一時(shí)刻的狀態(tài),通常稱(chēng)之為樣本(sample),而每一秒鐘所采樣的數目則稱(chēng)為采樣頻率,通過(guò)將一串連續的樣本連接起來(lái),就可以在計算機中描述一段聲音了。對于采樣過(guò)程中的每一個(gè)樣本來(lái)說(shuō),數字音頻系統會(huì )分配一定存儲位來(lái)記錄聲波的振幅,一般稱(chēng)之為采樣分辯率或者采樣精度,采樣精度越高,聲音還原時(shí)就會(huì )越細膩。
數字音頻涉及到的概念非常多,對于在Linux下進(jìn)行音頻編程的程序員來(lái)說(shuō),最重要的是理解聲音數字化的兩個(gè)關(guān)鍵步驟:采樣和量化。采樣就是每隔一定時(shí)間就讀一次聲音信號的幅度,而量化則是將采樣得到的聲音信號幅度轉換為數字值,從本質(zhì)上講,采樣是時(shí)間上的數字化,而量化則是幅度上的數字化。下面介紹幾個(gè)在進(jìn)行音頻編程時(shí)經(jīng)常需要用到的技術(shù)指標:
采樣頻率
采樣頻率是指將模擬聲音波形進(jìn)行數字化時(shí),每秒鐘抽取聲波幅度樣本的次數。采樣頻率的選擇應該遵循奈奎斯特(Harry Nyquist)采樣理論:如果對某一模擬信號進(jìn)行采樣,則采樣后可還原的最高信號頻率只有采樣頻率的一半,或者說(shuō)只要采樣頻率高于輸入信號最高頻率的兩倍,就能從采樣信號系列重構原始信號。正常人聽(tīng)覺(jué)的頻率范圍大約在20Hz~20kHz之間,根據奈奎斯特采樣理論,為了保證聲音不失真,采樣頻率應該在40kHz左右。常用的音頻采樣頻率有8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz等,如果采用更高的采樣頻率,還可以達到DVD的音質(zhì)。 其中,8kHZ為電話(huà)的采樣頻率。
量化位數
量化位數是對模擬音頻信號的幅度進(jìn)行數字化,它決定了模擬信號數字化以后的動(dòng)態(tài)范圍,常用的有8位、12位和16位。量化位越高,信號的動(dòng)態(tài)范圍越大,數字化后的音頻信號就越可能接近原始信號,但所需要的存貯空間也越大。
聲道數
聲道數是反映音頻數字化質(zhì)量的另一個(gè)重要因素,它有單聲道和雙聲道之分。雙聲道又稱(chēng)為立體聲,在硬件中有兩條線(xiàn)路,音質(zhì)和音色都要優(yōu)于單聲道,但數字化后占據的存儲空間的大小要比單聲道多一倍。
二、聲卡驅動(dòng)
出于對安全性方面的考慮,Linux下的應用程序無(wú)法直接對聲卡這類(lèi)硬件設備進(jìn)行操作,而是必須通過(guò)內核提供的驅動(dòng)程序才能完成。在Linux上進(jìn)行音頻編程的本質(zhì)就是要借助于驅動(dòng)程序,來(lái)完成對聲卡的各種操作。
對硬件的控制涉及到寄存器中各個(gè)比特位的操作,通常這是與設備直接相關(guān)并且對時(shí)序的要求非常嚴格,如果這些工作都交由應用程序員來(lái)負責,那么對聲卡的編程將變得異常復雜而困難起來(lái),驅動(dòng)程序的作用正是要屏蔽硬件的這些底層細節,從而簡(jiǎn)化應用程序的編寫(xiě)。目前Linux下常用的聲卡驅動(dòng)程序主要有兩種:OSS和ALSA。
最早出現在Linux上的音頻編程接口是OSS(Open Sound System),它由一套完整的內核驅動(dòng)程序模塊組成,可以為絕大多數聲卡提供統一的編程接口。OSS出現的歷史相對較長(cháng),這些內核模塊中的一部分(OSS/Free)是與Linux內核源碼共同免費發(fā)布的,另外一些則以二進(jìn)制的形式由4Front Technologies公司提供。由于得到了商業(yè)公司的鼎力支持,OSS已經(jīng)成為在Linux下進(jìn)行音頻編程的事實(shí)標準,支持OSS的應用程序能夠在絕大多數聲卡上工作良好。
雖然OSS已經(jīng)非常成熟,但它畢竟是一個(gè)沒(méi)有完全開(kāi)放源代碼的商業(yè)產(chǎn)品,ALSA(AdvancedLinux Sound Architecture)恰好彌補了這一空白,它是在Linux下進(jìn)行音頻編程時(shí)另一個(gè)可供選擇的聲卡驅動(dòng)程序。ALSA除了像OSS那樣提供了一組內核驅動(dòng)程序模塊之外,還專(zhuān)門(mén)為簡(jiǎn)化應用程序的編寫(xiě)提供了相應的函數庫,與OSS提供的基于ioctl的原始編程接口相比,ALSA函數庫使用起來(lái)要更加方便一些。ALSA的主要特點(diǎn)有:
支持多種聲卡設備
模塊化的內核驅動(dòng)程序
支持SMP和多線(xiàn)程
提供應用開(kāi)發(fā)函數庫
兼容OSS應用程序
ALSA和OSS最大的不同之處在于A(yíng)LSA是由志愿者維護的自由項目,而OSS則是由公司提供的商業(yè)產(chǎn)品,因此在對硬件的適應程度上OSS要優(yōu)于A(yíng)LSA,它能夠支持的聲卡種類(lèi)更多。ALSA雖然不及OSS運用得廣泛,但卻具有更加友好的編程接口,并且完全兼容于OSS,對應用程序員來(lái)講無(wú)疑是一個(gè)更佳的選擇。
評論