官术网_书友最值得收藏!

第三節(jié) 數(shù)字音頻技術(shù)知識

一、音頻模擬信號數(shù)字化

將音頻模擬數(shù)據(jù)轉(zhuǎn)換為數(shù)字信號最常見的方法是脈沖編碼調(diào)制PCM(Pulse Code Modulation)技術(shù),如圖1-2所示,它包括采樣、量化和編碼3個步驟。

圖1-2 脈沖編碼調(diào)制PCM技術(shù)的三個步驟

1.采樣

PCM的理論基礎(chǔ)是奈奎斯特(Nyquist)采樣定理:若對連續(xù)變化的模擬信號進(jìn)行周期性采樣,只要采樣頻率大于等于有效信號最高頻率的兩倍,采樣值便可包含原始信號的全部信息,就可以從這些采樣中重新構(gòu)造出原始信號。

根據(jù)采樣原理可以得知,相對自然界的信號,音頻編碼最多只能做到無限接近,因?yàn)闊o法完全還原,所以任何數(shù)字音頻編碼方案都是有損的。

2.量化

音頻采樣后的模擬信號為了實(shí)現(xiàn)以數(shù)字碼表示樣值,必須采用“四舍五入”的方法把樣值分級“取整”,使一定取值范圍內(nèi)的樣值由無限多個值變?yōu)橛邢迋€值,這一過程稱為量化。

量化位數(shù)是對模擬音頻信號的幅度軸進(jìn)行數(shù)字化,它決定了模擬信號數(shù)字化以后的動態(tài)范圍,量化位數(shù)越多,聲音的質(zhì)量越高,這也是衡量聲卡等級的重要指標(biāo)。

3.編碼

對音頻信號取樣并量化成二進(jìn)制,實(shí)際上就是對音頻信號進(jìn)行編碼。這樣音頻數(shù)字化得到的初始二進(jìn)制數(shù)據(jù)又被稱為PCM編碼,由于未經(jīng)過壓縮的PCM被約定俗成稱為無損,代表了數(shù)字音頻中最佳的保真水準(zhǔn),其無損相對的是MP3的有損。

二、音頻壓縮技術(shù)

音頻壓縮技術(shù)指的是對原始數(shù)字音頻信號流(PCM編碼)運(yùn)用適當(dāng)?shù)臄?shù)字信號處理技術(shù),在不損失有用信息量或所引入損失可忽略的條件下,降低(壓縮)其碼率,也稱為壓縮編碼。同時,它必須具有相應(yīng)的逆變換,即解壓縮或解碼。

一般來講,我們可以將音頻壓縮技術(shù)分為有損(lossy)壓縮及無損(lossless)壓縮兩大類。

1.有損壓縮

顧名思義,有損壓縮就是降低音頻的采樣頻率與比特率,這樣輸出的音頻文件會比原文件小。

目前,常見的壓縮編碼有以下幾種:

(1)高級音頻編碼(Advanced Audio Coding, AAC)。

高級音頻編碼,出現(xiàn)于1997年,是基于MPEG-2的音頻編碼技術(shù)。由Fraunhofer IIS、杜比實(shí)驗(yàn)室、AT&T、Sony等公司共同開發(fā),目的是取代MP3格式的音頻。2000年,MPEG-4標(biāo)準(zhǔn)出現(xiàn)后,AAC重新集成了其特性,加入了SBR技術(shù)和PS技術(shù),為了區(qū)別于傳統(tǒng)的MPEG-2 AAC,又稱其為MPEG-4 AAC。它采用了全新的算法進(jìn)行編碼,更加高效,具有更高的“性價比”。

(2)杜比數(shù)字(Dolby Digital AC-3)。

杜比數(shù)字是杜比公司開發(fā)的新一代家庭影院多聲道數(shù)字音頻系統(tǒng)。杜比數(shù)字提供的環(huán)繞聲系統(tǒng)由五個全頻域聲道加一個超低音聲道組成(5.1個聲道),它將每個聲道的頻率根據(jù)人耳的聽覺特性區(qū)分為許多窄小的頻段,利用音響心理學(xué)“聽覺掩蔽效應(yīng)”,刪除人耳聽不到或可忽略的部分,并采用數(shù)字信號壓縮編碼。

(3)MPEG-1音頻。

MPEG組織于1992年正式被批準(zhǔn)為國際標(biāo)準(zhǔn),標(biāo)準(zhǔn)的編號為ISO/IEC11172,其標(biāo)題為“碼率約為1.5Mb/s用于數(shù)字存儲媒體活動圖像及其伴音的編碼”。MPEG-1主要解決多媒體的存儲問題,它的成功制定,使得以VCD和MP3為代表的MPEG-1產(chǎn)品迅速在世界范圍內(nèi)普及。

目前,常見的音頻格式有以下幾種:

(1)RM(RA):網(wǎng)絡(luò)流媒體的鼻祖。RM曾經(jīng)是網(wǎng)上音樂傳播的霸主,開創(chuàng)了音頻流技術(shù)。由于Real Media是從極差的網(wǎng)絡(luò)環(huán)境下發(fā)展過來的,有損壓縮比大、體積小,因此音質(zhì)差,能兼容的播放器不多,再加上其他音頻格式的沖擊,現(xiàn)已幾乎被淘汰。

(2)MP3:老當(dāng)益壯。MP3的全稱是MPEG-1 Audio Layer 3,是世界第一個也是最流行的有損壓縮編碼方案(源代碼開放)。它利用“知覺音頻編碼技術(shù)”削減單元音樂中人耳聽不到的成分,第一次實(shí)現(xiàn)了10∶1~12∶1的高壓縮率,而音質(zhì)僅次于CD格式或WAV格式的聲音文件。由于其文件尺寸小、音質(zhì)好,因此MP3格式幾乎成為網(wǎng)上音樂的代名詞。直到現(xiàn)在,其作為主流音頻格式的地位仍難以被撼動,可以說幾乎所有的播放軟件都支持它。

(3)WMA:低碼流音質(zhì)中最好用的。作為微軟搶占網(wǎng)絡(luò)音樂的開路先鋒,WMA以很低的碼流實(shí)現(xiàn)低失真的音樂還原,壓縮率可以達(dá)到1∶18左右,還支持音頻流(Stream)技術(shù),尤其是得到Windows系統(tǒng)支持,使Windows Media Player可以直接播放WMA音樂。隨著碼流提升到超過128 Kbps, MP3音質(zhì)有質(zhì)的飛躍,WMA卻沒有音質(zhì)的提升,所以現(xiàn)在基本處于被淘汰狀態(tài)。

(4)OGG(Ogg Vorbis)。Ogg是一個自由且開放標(biāo)準(zhǔn)的容器格式,Vorbis是一種音頻壓縮機(jī)制,相當(dāng)于AAC、AC3,由Xiph. Org基金會維護(hù)。Ogg Vorbis作為一個音頻編碼框架,通過不斷導(dǎo)入新技術(shù)逐步完善、提高音質(zhì),同時支持多聲道,有頂替開始征收專利費(fèi)MP3的趨勢。

2.無損壓縮

無損壓縮能夠在100%保存原文件數(shù)據(jù)的前提下,將音頻文件的體積壓縮得更小,而將壓縮后的音頻文件還原后,能夠?qū)崿F(xiàn)與源文件相同的大小、相同的碼率。

目前,常見的無損壓縮格式有以下幾種:

(1)AIFF:蘋果電腦最早實(shí)現(xiàn)多媒體計算機(jī)的音頻格式。

(2)WAV:是微軟公司根據(jù)蘋果電腦上音頻格式AIFF開發(fā)的一種數(shù)字音頻文件格式,也叫波形聲音文件。

(3)APE:由軟件Monkey's audio壓縮得到,壓縮率約為55%,源代碼開放,因其界面有“猴子”標(biāo)志而出名。

(4)FLAC:這種壓縮與ZIP的方式類似,是專門針對PCM音頻的特點(diǎn)設(shè)計的壓縮方式,且可以使用播放器直接播放FLAC壓縮的文件。更重要的是FLAC的文件格式是完全對公眾開放的,人們可以以任意目的使用它,不受任何已知專利的限制。

(5)Libsndfile:是一個由C語言寫成的開放源代碼的音頻文件讀寫的庫,可以讀寫WAV格式,F(xiàn)LAC格式和其他許多常見格式(因?yàn)閷@麊栴}而不支持MP3)。

三、數(shù)字音頻參數(shù)

1.采樣率

采樣率即采樣頻率,指計算機(jī)每秒鐘采集多少個聲音樣本,是描述聲音文件的音質(zhì)、音調(diào),衡量聲卡、聲音文件的質(zhì)量標(biāo)準(zhǔn)。采樣頻率越高,即采樣的間隔時間越短,則在單位時間內(nèi)計算機(jī)得到的聲音樣本數(shù)據(jù)就越多,對聲音波形的表示也越精確,占用的存儲空間也就越大。

人耳能聽到的聲音頻率范圍是20Hz~20KHz。CD音樂根據(jù)奈奎斯特采樣定理確定了44.1KHz的采樣頻率。數(shù)字電視、電影和專業(yè)音頻48KHz采樣頻率則有更高的奈奎斯特極限,滿足更苛刻的要求。

2.聲道

立體聲:一般的聲卡都是支持雙聲道即立體聲信號的。

5.1聲道音效處理系統(tǒng):由中置聲道,前置左、右聲道,后置左、右環(huán)繞聲道及所謂的0.1聲道重低音聲道六個聲道組成。

3.位深度(采樣精度、量化位數(shù))

計算機(jī)中的數(shù)據(jù)都是由數(shù)字0和1二進(jìn)制來表示的,二進(jìn)制位數(shù)(8、16、24位)決定著數(shù)字信號的精確程度,聲卡最高的采樣精度決定著處理聲音信號的解析度。

4.?dāng)?shù)碼率(帶寬)

在數(shù)字傳輸系統(tǒng)中,由于傳輸?shù)氖菙?shù)字信號,因此傳輸?shù)挠行钥捎脗鬏斔俾蕘砗饬俊?shù)碼率也稱信息傳輸速率、碼流、比特率或傳信率,是指以二進(jìn)制碼做數(shù)字信息的度量單位時,單位時間內(nèi)傳送的二進(jìn)制比特數(shù)。其單位為比特/秒(bit/s)。

數(shù)碼率有以下三種不同的編碼形式:

(1)CBR(Constant Bitrate):固定比特率,指文件只有一種位速率。相對于VBR和ABR,它壓縮出來的文件體積很大,音質(zhì)卻沒有明顯的提高。

(2)VBR(Variable Bitrate):動態(tài)比特率,指壓縮文件時根據(jù)音頻數(shù)據(jù)即時確定使用什么比特率,這是以質(zhì)量為前提兼顧文件大小的方式。

(3)ABR(Average Bitrate):平均比特率,是VBR的一種插值參數(shù)。

四、數(shù)字音頻工作站

數(shù)字音頻工作站(Digital Audio Workstation,簡稱DAW)是一種用來處理、交換音頻信息的計算機(jī)系統(tǒng)。它是隨著數(shù)字技術(shù)的發(fā)展和計算機(jī)技術(shù)的突飛猛進(jìn),將兩者相結(jié)合的新型設(shè)備。

數(shù)字音頻工作站的構(gòu)成如下:

1.硬件

從硬件角度來說,我們可將數(shù)字音頻工作站歸結(jié)為計算機(jī)控制部分,核心音頻處理部分(專業(yè)聲卡),數(shù)據(jù)存儲設(shè)備及其他外設(shè)設(shè)備(傳聲器、調(diào)音臺、監(jiān)聽耳機(jī)、音箱等)四個部分。

2.軟件

從軟件角度來說,我們可將數(shù)字音頻工作站分為操作平臺、音頻處理界面、文件格式、第三方軟件及其他相關(guān)軟件四個模塊。

目前,常見的音頻處理軟件有以下五種:

(1)Audition:專業(yè)音頻編輯和混合處理軟件,原名為Cool Edit,被Adobe公司收購后改名。

(2)Cubase:一款全功能數(shù)字音樂、音頻工作軟件,可制作出千奇百怪的電子聲以及大量的特效。

(3)Samplitude:目前最專業(yè)的多軌音頻軟件,是專業(yè)錄音棚必備的軟件,音頻處理軟件中的專業(yè)之王。

(4)Fruity Loop:俗稱鼓點(diǎn)軟件,以小節(jié)為單位制作幾十個小片段,再組合成樂曲。Loop適合制作舞曲、鼓點(diǎn)等。

(5)Cakewalk Sonar: MIDI音樂創(chuàng)作和制作軟件。

主站蜘蛛池模板: 浦东新区| 平山县| 峡江县| 北安市| 桃源县| 响水县| 彝良县| 金川县| 肇州县| 宜州市| 博客| 昔阳县| 黄梅县| 荆门市| 鹤山市| 武定县| 崇阳县| 邯郸市| 诸城市| 保亭| 出国| 罗城| 宕昌县| 南丰县| 榆中县| 无棣县| 萨迦县| 阿坝县| 富锦市| 铜梁县| 蚌埠市| 阿克苏市| 巴彦县| 乳源| 英德市| 开鲁县| 东安县| 潼关县| 兰坪| 闵行区| 陆河县|