雷運發(fā)第3章音頻信息處理.ppt
《雷運發(fā)第3章音頻信息處理.ppt》由會員分享,可在線閱讀,更多相關(guān)《雷運發(fā)第3章音頻信息處理.ppt(80頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第3章音頻信息處理,學(xué)習(xí)目標(biāo)l了解聲音信號的特點、存儲格式及質(zhì)量的度量方法l理解音頻信號壓縮方法及音頻編碼標(biāo)準(zhǔn)l掌握常用的音頻處理軟件對聲音信號進行處理l了解語音識別技術(shù)及其應(yīng)用,,3.1音頻信息處理基礎(chǔ),,音頻信息在多媒體中的應(yīng)用極為廣泛:視頻圖像配以娓娓動聽的音樂和語音;靜態(tài)或動態(tài)圖像配以解說和背景音樂;立體聲音樂可增加空間感;游戲中的音響效果等。音頻處理技術(shù)主要包括電聲轉(zhuǎn)換、音頻信號的存儲、重放技術(shù)、加工處理技術(shù)以及數(shù)字化音頻信號的編碼、壓縮、傳輸、存取、糾錯等。,3.1.1音頻信號的特點,1.音頻信號的分類音頻信號可分為兩類:語音信號和非語音信號。語音是語言的物質(zhì)載體,是社會交際工具的符號,它包含了豐富的語言內(nèi)涵,是人類進行信息交流所特有的形式。非語音信號主要包括音樂和自然界存在的其他聲音形式。非語音信號的特點是不具有復(fù)雜的語義和語法信息,信息量低、識別簡單。,規(guī)則音頻是一種連續(xù)變化的模擬信號,可用一條連續(xù)的曲線來表示,稱為聲波。因聲波是在時間和幅度上都連續(xù)變化的量,我們稱之為模擬量。,用聲音錄制軟件記錄的英文單詞“Hello”的語音實際波形,2.模擬音頻信號的兩個重要參數(shù),模擬音頻信號有兩個重要參數(shù):頻率和幅度。聲音的頻率體現(xiàn)音調(diào)的高低,聲波幅度的大小體現(xiàn)聲音的強弱。一個聲源每秒鐘可產(chǎn)生成百上千個波,我們把每秒鐘波峰所發(fā)生的數(shù)目稱之為信號的頻率,單位用赫茲(Hz)或千赫茲(kHz)表示。信號的幅度是從信號的基線到當(dāng)前波峰的距離。幅度決定了信號音量的強弱程度。幅度越大,聲音越強。對音頻信號,聲音的強度用分貝(dB)表示,分貝的幅度就是音量。,3.聲音的A/D與D/A轉(zhuǎn)換,A/D轉(zhuǎn)換就是把模擬信號轉(zhuǎn)換成數(shù)字信號的過程,模擬電信號變?yōu)榱擞伞?”和“1”組成的Bit信號。這樣做的好處是顯而易見的,聲音存儲質(zhì)量得到了加強,數(shù)字化的聲音信息使計算機能夠進行識別、處理和壓縮。A/D轉(zhuǎn)換的一個關(guān)鍵步驟是聲音的采樣和量化,得到數(shù)字音頻信號,它在時間上是不連續(xù)的離散信號。借助于A/D或D/A轉(zhuǎn)換器,模擬信號和數(shù)字信號可以互相轉(zhuǎn)換。,4.聲音的三要素,1)音調(diào):代表了聲音的高低。音調(diào)與頻率有關(guān),頻率越高,音調(diào)越高,反之亦然。讀者也許有這樣的經(jīng)驗,當(dāng)提高磁帶錄音機的轉(zhuǎn)速時,其旋轉(zhuǎn)加快,聲音信號的頻率提高,其喇叭放出來聲音的音調(diào)提高了。同樣,在使用音頻處理軟件對聲音的頻率進行調(diào)整時,也可明顯感到音調(diào)隨之而產(chǎn)生的變化。各種不同的聲源具有自己特定的音調(diào),如果改變了某種聲源的音調(diào),則聲音會發(fā)生質(zhì)的轉(zhuǎn)變,使人們無法辨別聲源本來的面目。,2)音色:即特色的聲音。聲音分純音和復(fù)音兩種類型。所謂純音,是指振幅和周期均為常數(shù)的聲音;復(fù)音則是具有不同頻率和不同振幅的混合聲音。大自然中的聲音絕大部分是復(fù)音。在復(fù)音中,最低頻率的聲音是“基音”,它是聲音的基調(diào)。其他頻率的聲音稱為“諧音”,也叫泛音。基音和諧音是構(gòu)成聲音音色的重要因素。各種聲源都具有自己獨特的音色,例如各種樂器的聲音、每個人的聲音、各種生物的聲音等,人們就是依據(jù)音色來辨別聲源種類的。,3)音強:聲音的強度,也被稱為聲音的響度,常說的“音量”也是指音強。音強與聲波的振幅成正比,振幅越大,強度越大。唱盤、CD激光盤以及其他形式聲音載體中的聲音強度是一定的,通過播放設(shè)備的音量控制,可改變聆聽時的響度。,聲音的頻譜有線性頻譜和連續(xù)頻譜之分。線性頻譜是具有周期性的單一頻率聲波;連續(xù)頻譜是具有非周期性的帶有一定頻帶所有頻率分量的聲波。純粹的單一頻率的聲波只能在專門的設(shè)備中創(chuàng)造出來,聲音效果單調(diào)而乏味。自然界中的聲音幾乎全部屬于非周期性聲波,該聲波具有廣泛的頻率分量,聽起來聲音飽滿、音色多樣且具有生氣。,5.聲音的頻譜,3.1.2模擬音頻的數(shù)字化過程,數(shù)字化的聲音易于用計算機軟件處理,現(xiàn)在幾乎所有的專業(yè)化聲音錄制、編輯器都是數(shù)字方式。對模擬音頻數(shù)字化過程涉及到音頻的采樣、量化和編碼。采樣和量化的過程可由A/D轉(zhuǎn)換器實現(xiàn)。A/D轉(zhuǎn)換器以固定的頻率去采樣,即每個周期測量和量化信號一次。經(jīng)采樣和量化后聲音信號經(jīng)編碼后就成為數(shù)字音頻信號,可以將其以文件形式保存在計算機的存儲介質(zhì)中,這樣的文件一般稱為數(shù)字聲波文件。,信息論的奠基者香農(nóng)(Shannon)指出:在一定條件下,用離散的序列可以完全代表一個連續(xù)函數(shù),這是采樣定理的基本內(nèi)容。為實現(xiàn)A/D轉(zhuǎn)換,需要把模擬音頻信號波形進行分割,這種方法稱為采樣(Sampling)。采樣的過程是每隔一個時間間隔在模擬聲音的波形上取一個幅度值,把時間上的連續(xù)信號變成時間上的離散信號。該時間間隔稱為采樣周期,其倒數(shù)為采樣頻率。采樣頻率是指計算機每秒鐘采集多少個聲音樣本。,1.采樣,采樣頻率與聲音頻率之間有一定的關(guān)系,根據(jù)奈奎斯特(Nyquist)理論,只有采樣頻率高于聲音信號最高頻率的兩倍時,才能把數(shù)字信號表示的聲音還原成為原來的聲音。,采樣只解決了音頻波形信號在時間坐標(biāo)(即橫軸)上把一個波形切成若干個等分的數(shù)字化問題,但是還需要用某種數(shù)字化的方法來反映某一瞬間聲波幅度的電壓值大小。該值的大小影響音量的高低。我們把對聲波波形幅度的數(shù)字化表示稱之為“量化”。量化的過程是先將采樣后的信號按整個聲波的幅度劃分成有限個區(qū)段的集合,把落入某個區(qū)段內(nèi)的樣值歸為一類,并賦于相同的量化值。如何分割采樣信號的幅度呢?我們還是采取二進制的方式,以8位(bit)或16位(bit)的方式來劃分縱軸。也就是說在一個以8位為記錄模式的音效中,其縱軸將會被劃分為個量化等級,用以記錄其幅度大小。,2.量化,,以下圖所示的原始模擬波形為例進行采樣和量化。假設(shè)采樣頻率為1000次/秒,即每1/1000秒A/D轉(zhuǎn)換器采樣一次,其幅度被劃分成0到9共10個量化等級,并將其采樣的幅度值取最接近0~9之間的一個數(shù)來表示,如下圖所示。圖中每個正方形表示一次采樣。,D/A轉(zhuǎn)換器從上圖得到的數(shù)值中重構(gòu)原來信號時,得到下圖中藍色(直線段)線段所示的波形。從圖中可以看出,藍色線與原波形(紅色線)相比,其波形的細節(jié)部分丟失了很多。這意味著重構(gòu)后的信號波形有較大的失真。,失真在采樣過程中是不可避免的,如何減少失真呢?可以直觀地看出,我們可以把上圖中的波形劃分成更為細小的區(qū)間,即采用更高的采樣頻率。同時,增加量化精度,以得到更高的量化等級,即可減少失真的程度。在下圖(左)中,采樣率和量化等級均提高了一倍,分別為2000次/秒和20個量化等級。在下圖(右)中,采樣率和量化等級再提高了一倍,分別達到4000次/秒和40個量化等級。從圖中可以看出,當(dāng)用D/A轉(zhuǎn)換器重構(gòu)原來信號時(圖中的輪廓線),信號的失真明顯減少,信號質(zhì)量得到了提高。,3.編碼模擬信號量經(jīng)過采樣和量化以后,形成一系列的離散信號——脈沖數(shù)字信號。這種脈沖數(shù)字信號可以一定的方式進行編碼,形成計算機內(nèi)部運行的數(shù)據(jù)。所謂編碼,就是按照一定的格式把經(jīng)過采樣和量化得到的離散數(shù)據(jù)記錄下來,并在有用的數(shù)據(jù)中加入一些用于糾錯、同步和控制的數(shù)據(jù)。在數(shù)據(jù)回放時,可以根據(jù)所記錄的糾錯數(shù)據(jù)判別讀出的聲音數(shù)據(jù)是否有錯,如在一定范圍內(nèi)有錯,可加以糾正。編碼的形式比較多,常用的編碼方式是PCM——脈沖調(diào)制。脈沖編碼調(diào)制(PCM)是把模擬信號變換為數(shù)字信號的一種調(diào)制方式,即把連續(xù)輸入的模擬信號變換為在時域和振幅上都離散的量,然后將其轉(zhuǎn)化為代碼形式傳輸或存儲。,3.1.3數(shù)字音頻的文件格式在多媒體技術(shù)中,存儲音頻信息的文件格式主要有:WAV文件、VOC文件和MP3文件等。1.WAV文件WAV文件又稱波形文件,來源于對聲音模擬波形的采樣,并以不同的量化位數(shù)把這些采樣點的值輪換成二進制數(shù),然后存入磁盤,這就產(chǎn)生了波形文件。WAV文件用于保存Windows平臺的音頻信息資源,被Windows平臺及其應(yīng)用程序所廣泛支持。,WAV聲音文件是使用RIFF(ResourceInterchangeFileFormat資源交換文件)的格式描述的,它由文件頭和波形音頻文件數(shù)據(jù)塊組成。文件頭包括標(biāo)志符、語音特征值、聲道特征以及PCM格式類型標(biāo)志等。WAV數(shù)據(jù)塊是由數(shù)據(jù)子塊標(biāo)記、數(shù)據(jù)子塊長度和波形音頻數(shù)據(jù)3個數(shù)據(jù)子塊組成。Wave格式支持多種壓縮算法,支持多種音頻位數(shù)、采樣頻率和聲道,是PC機上最為流行的聲音文件格式,但其文件尺寸較大,多用于存儲簡短的聲音片斷。,未壓縮的聲音文件的存儲量可用下式計算:存儲量(KB)=(采樣頻率KHZ采樣位數(shù)bit聲道數(shù)時間秒)/8,2.VOC文件VOC文件是Creative公司所使用的標(biāo)準(zhǔn)音頻文件格式,多用于保存CreativeSoundBlaster(創(chuàng)新聲霸)系列聲卡所采集的聲音數(shù)據(jù),被Windows平臺和DOS平臺所支持。與WAV格式類似,VOC文件由文件頭塊和音頻數(shù)據(jù)塊組成。文件頭包含一個標(biāo)識、版本號和一個指向數(shù)據(jù)塊起始地址的指針,這個指針幫助數(shù)據(jù)塊定位以便順利找到第一個數(shù)據(jù)塊。數(shù)據(jù)塊分成各種類型的子塊,如聲音數(shù)據(jù)、靜音、標(biāo)記、ASCII碼文件、重復(fù)、重復(fù)的結(jié)束及終止標(biāo)記等。,3.MPEG音頻文件——.MP1/.MP2/.MP3這里的音頻文件格式指的是MPEG標(biāo)準(zhǔn)中的音頻部分,即MPEG音頻層(MPEGAudioLayer)。MPEG音頻文件的壓縮是一種有損壓縮,根據(jù)壓縮質(zhì)量和編碼復(fù)雜程度的不同可分為三層(MPEGAudioLayer1/2/3),分別對應(yīng)MP1、MP2和MP3這三種聲音文件;MPEG音頻編碼具有很高的壓縮率,MP1和MP2的壓縮率分別為4∶1和6∶1~8∶1,而MP3的壓縮率則高達10∶1~12∶1,也就是說一分鐘CD音質(zhì)的音樂,未經(jīng)壓縮需要10MB存儲空間,而經(jīng)過MP3壓縮編碼后只有1MB左右,同時其音質(zhì)基本保持不失真。,4.RealAudio文件——.RA/.RM/.RAMRealAudio文件是RealNetworks公司開發(fā)的一種新型流式音頻(StreamingAudio)文件格式;它包含在RealNetworks所制定的音頻、視頻壓縮規(guī)范RealMedia中,主要用于在低速率的廣域網(wǎng)上實時傳輸音頻信息;網(wǎng)絡(luò)連接速率不同,客戶端所獲得的聲音質(zhì)量也不盡相同:對于28.8kb/s的連接,可以達到廣播級的聲音質(zhì)量;如果擁有ISDN或更快的線路連接,則可獲得CD音質(zhì)的聲音。,5.AIFF文件——.AIF/.AIFFAIFF是音頻交換文件格式(AudioInterchangeFileFormat)的英文縮寫,是蘋果計算機公司開發(fā)的一種聲音文件格式;被Macintosh平臺及其應(yīng)用程序所支持,其他專業(yè)音頻軟件包也同樣支持這種格式。,3.1.4聲音質(zhì)量的評價,目前有三種方法可以衡量聲音的質(zhì)量。一是用聲音信號的帶寬來衡量聲音的質(zhì)量,等級由高到低依次是DAT,CD,F(xiàn)M,AM和數(shù)字電話。此外,聲音質(zhì)量的度量還有兩種基本的方法:一種是客觀質(zhì)量度量,另一種是主觀質(zhì)量度量。評價語音質(zhì)量時,有時同時采取兩種方法評估,有時以主觀質(zhì)量度量為主。1.以聲音的帶寬衡量聲音的質(zhì)量,2、聲音客觀質(zhì)量的度量聲音客觀質(zhì)量的度量主要用信噪比(signaltonioseratio,SNR)來度量。它指音源產(chǎn)生最大不失真聲音信號強度與同時發(fā)出噪音強度之間的比率,通常以S/N表示。一般用分貝(dB)為單位,信噪比越高表示音頻質(zhì)量越好。信噪比(SNR)用下式計算:SNR=10log[(Vsignal)2/(Vnoise)2]=20log(Vsignal/Vnoise)其中,Vsignal表示信號電壓,Vnoise表示噪聲電壓;SNR的單位為分貝(db)。,3、聲音主觀質(zhì)量的度量與用SNR客觀質(zhì)量度量相比較,應(yīng)該可以說人的感覺(如聽覺、視覺等)更具有決定意義,感覺上的、主觀上的測試應(yīng)該成為評價聲音質(zhì)量和圖像質(zhì)量不可缺少的部分。而有的學(xué)者則認為,在語音和圖像信號編碼中使用主觀質(zhì)量度量比使用客觀質(zhì)量度量更加恰當(dāng),更有意義??墒且话銇碚f,可靠的主觀度量值也是比較難獲得的,所獲得的值也是一個相對值。對聲音主觀質(zhì)量度量比較通用的標(biāo)準(zhǔn)是5分制:優(yōu)(Excellent)、良(Good)、中(Fair)、差(Poor)、劣(Bad)。,3.2音頻信號壓縮技術(shù),音頻信號壓縮編碼的主要依據(jù)是人耳的聽覺特性,主要有兩點:1.人的聽覺系統(tǒng)中存在一個聽覺閾值電平,低于這個電平的聲音信號人耳聽不到.2.人的聽覺存在屏蔽效應(yīng)。當(dāng)幾個強弱不同的聲音同時存在時,強聲使弱聲難以聽到,并且兩者之間的關(guān)系與其相對頻率的大小有關(guān).聲音編碼算法就是通過這些特性來去掉更多的冗余數(shù)據(jù),來達到壓縮數(shù)據(jù)的目的。,3.2.1脈沖編碼調(diào)制,,1.編碼的原理它的原理框圖下圖所示,3.2.1脈沖編碼調(diào)制,,1.編碼的原理它的原理框圖下圖所示,模擬信號數(shù)字化一般有三個步驟:第一步是采樣,就是每隔一段時間間隔讀一次聲音的幅度;第二步是量化,就是把采樣得到的聲音信號幅度轉(zhuǎn)換成數(shù)字值。但那時并沒有涉及如何進行量化。量化有好幾種方法,但可歸納成兩類:一類稱為均勻量化,另一類稱為非均勻量化。采用的量化方法不同,量化后的數(shù)據(jù)量也就不同。因此,可以說量化也是一種壓縮數(shù)據(jù)的方法;第三步是編碼,就是按一定格式記錄采樣和量化后的數(shù)據(jù)。,2.均勻量化,采用相同的“等分尺”來度量采樣得到的幅度,也稱為線性量化,如圖3-4所示。量化后的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化噪聲。,,3.非均勻量化,對輸入信號進行量化時,大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔,如圖3-5所示。,,一個CD—DA采用脈沖編碼調(diào)制PCM編碼的實例,,,首先用一組脈沖采樣時鐘信號與輸入的模擬音頻信號相乘,相乘的結(jié)果即輸入信號在時間軸上的數(shù)字化。然后對采樣以后的信號幅值進行量化。最簡單的量化方法是均衡量化,這個量化的過程由量化器來完成。對經(jīng)量化器A/D變換后的信號再進行編碼,即把量化的信號電平轉(zhuǎn)換成二進制碼組,就得到了離散的二進制輸出數(shù)據(jù)序列x(n),n表示量化的時間序列,x(n)的值就是n時刻量化后的幅值,以二進制的形式表示和記錄。,3.2.2增量調(diào)制它是一種預(yù)測編碼技術(shù),是PCM編碼的一種變形。DM是對實際的采樣信號與預(yù)測的采樣信號之差的極性進行編碼,將極性變成“0”和“1”這兩種可能的取值之一。如果實際的采樣信號與預(yù)測的采樣信號之差的極性為“正”,則用“1”表示;相反則用“0”表示,或者相反。,,圖3-7DM波形示意圖,從上圖中可以看到,在開始階段增量調(diào)制器的輸出不能保持跟蹤輸入信號的快速變化,這種現(xiàn)象稱為增量調(diào)制器的“斜率過載”(slopeoverload)。在輸入信號緩慢變化部分,即輸入信號與預(yù)測信號的差值接近零的區(qū)域,增量調(diào)制器的輸出出現(xiàn)隨機交變的“0”和“1”。這種現(xiàn)象稱為增量調(diào)制器的粒狀噪聲(granularnoise),這種噪聲是不可能消除的。在輸入信號變化快的區(qū)域,斜率過載是關(guān)心的焦點,而在輸入信號變化慢的區(qū)域,關(guān)心的焦點是粒狀噪聲。,3.2.3自適應(yīng)脈沖編碼調(diào)制,是根據(jù)輸入信號幅度大小來改變量化階大小的一種波形編碼技術(shù)。這種自適應(yīng)可以是瞬時自適應(yīng),即量化階的大小每隔幾個樣本就改變,也可以是非瞬時自適應(yīng),即量化階的大小在較長時間才發(fā)生變化。改變量化階大小的方法有兩種:一種稱為前向自適應(yīng),后向自適應(yīng)。前者是根據(jù)未量化的樣本值的均方根值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進行編碼作為邊信息(sideinformation)傳送到接收端。后者是從量化器剛輸出的過去樣本中來提取量化階信息。,(a)前向自適應(yīng),,(b)后向自適應(yīng),,3.2.4差分脈沖編碼調(diào)制,是利用樣本與樣本之間存在的信息冗余度來進行編碼的一種數(shù)據(jù)壓縮技術(shù)。差分脈沖編碼調(diào)制的思想是,根據(jù)過去的樣本去估算(estimate)下一個樣本信號的幅度大小,這個值稱為預(yù)測值,然后對實際信號值與預(yù)測值之差進行量化編碼,從而就減少了表示每個樣本信號的位數(shù)。它與脈沖編碼調(diào)制(PCM)不同的是,PCM是直接對采樣信號進行量化編碼,而DPCM是對實際信號值與預(yù)測值之差進行量化編碼,存儲或者傳送的是差值而不是幅度絕對值。,差分脈沖編碼調(diào)制的概念示于圖3-9。圖中的差分信號d(k)是離散輸入信號s(k)和預(yù)測器輸出的估算值se(k-1)之差。注意,se(k-1)是對s(k)的預(yù)測值,,,3.2.5自適應(yīng)差分脈沖編碼調(diào)制,綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性,是一種性能比較好的波形編碼。它的核心想法是:①利用自適應(yīng)的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值,②使用過去的樣本值估算下一個輸入樣本的預(yù)測值,使實際樣本值和預(yù)測值之間的差值總是最小。它的編碼簡化框圖如圖3-10所示。,,3.3音頻編碼標(biāo)準(zhǔn),3.3.1CCITTG系列聲音壓縮標(biāo)準(zhǔn)CCITT和ISO先后提出了一系列有關(guān)語音數(shù)據(jù)編譯碼標(biāo)準(zhǔn),下面簡要介紹幾種音頻編碼技術(shù)標(biāo)準(zhǔn)。1.電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)信號頻率規(guī)定在300Hz~3.4kHz,采用標(biāo)準(zhǔn)的脈沖編碼調(diào)制(PCM),當(dāng)采樣頻率為8kHz,進行8bit量化時,所得數(shù)據(jù)速率為64kb/s,即一個數(shù)字電話。1972年CCITT為電話質(zhì)量和語音壓縮制定了PCM標(biāo)準(zhǔn)G.711,其速率為64Kb/s,使用非線性量化技術(shù),主要用于公共電話網(wǎng)中。,2.調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)頻率在50Hz一7kHz范圍。G.722標(biāo)準(zhǔn)是采用16kHz采樣,14bit量化,信號數(shù)據(jù)速率為224kbit/s,采用子帶編碼方法,將輸入音頻信號經(jīng)濾波器分成高子帶和低子帶兩個部分,分別進行ADPCM編碼,再混合形成輸出碼流,224kbit/s可以被壓縮成64kbit/s,最后進行數(shù)據(jù)插入(最高插入速率達16kbit/s),因此利用G.722標(biāo)準(zhǔn)可以在窄帶綜合服務(wù)數(shù)據(jù)網(wǎng)N-ISDN中的一個B信道上傳送調(diào)幅廣播質(zhì)量的音頻信號。,3.高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)高保真立體聲音頻信號頻率范圍是50Hz~20kHz,采用44.1kHz采樣頻率,16bit量化進行數(shù)字化轉(zhuǎn)換,其數(shù)據(jù)速率每聲道達705kbit/s。1991年國際標(biāo)準(zhǔn)化組織ISO和CCITT開始聯(lián)合制定MPEG標(biāo)準(zhǔn),其中ISOCDlll72-3作為“MPEG音頻”標(biāo)準(zhǔn),成為國際上公認的高保真立體聲音頻壓縮標(biāo)準(zhǔn)。MPEG音頻第一和第二層次編碼是將輸入音頻信號進行采樣頻率為48kHz,44.1kHz,32kHz的采樣,經(jīng)濾波器組將其分為32個子帶,同時利用人耳屏蔽效應(yīng),根據(jù)音頻信號的性質(zhì)計算各頻率分量的人耳屏蔽門限,選擇各子帶的量化參數(shù),獲得高的壓縮比。MPEG第三層次是在上述處理后再引入輔助子帶,非均勻量化和熵編碼技術(shù),再進一步提高壓縮比。MPEG音頻壓縮技術(shù)的數(shù)據(jù)速率為每聲道32~448kbit/s,適合于CD-DA光盤應(yīng)用。,3.3.2MP3壓縮技術(shù)MP3的全名是MPEGAudioLayer-3,簡單地說就是一種聲音文件的壓縮格式。ISO/MPEG音頻壓縮標(biāo)準(zhǔn)里包括了三個使用高性能音頻數(shù)據(jù)壓縮方法的感知編碼方案,按照壓縮質(zhì)量(每Bit的聲音效果)和編碼方案的復(fù)雜程度分別是Layer1、Layer2、Layer3。所有這三層的編碼采用的基本結(jié)構(gòu)是相同的。它們在采用傳統(tǒng)的頻譜分析和編碼技術(shù)的基礎(chǔ)上還應(yīng)用了子帶分析和心理聲學(xué)模型理論。也就是通過研究人耳和大腦聽覺神經(jīng)對音頻失真的敏感度,在編碼時先分析聲音文件的波形,利用濾波器找出噪音電平(NoiseLevel),然后濾去人耳不敏感的信號,通過矩陣量化的方式將余下的數(shù)據(jù)每一位打散排列,最后編碼形成MPEG的文件。而音質(zhì)聽起來與CD相差不大。,MPEG的層次與壓縮比率,,3.3.3MP4壓縮技術(shù)MP4并不是MPEG-4或者MPEG-1Layer4,它的出現(xiàn)是針對MP3的大眾化、無版權(quán)的一種保護格式,由美國網(wǎng)絡(luò)技術(shù)公司開發(fā),美國唱片行業(yè)聯(lián)合會倡導(dǎo)公布的一種新的網(wǎng)絡(luò)下載和音樂播放格式。MP4使用的是MPEG-2AAC技術(shù)也就是俗稱的a2b或AAC。其中,MPEG-2是MPEG于1994年11月針對數(shù)碼電視(數(shù)碼影像)提出的。它的特點就是,音質(zhì)更加完美而壓縮比更加大(1:15)。MPEG-2AAC(ISO/IEC13818-7)在采樣率為8~96KHz下提供了1~48個聲道可選范圍的高質(zhì)量音頻編碼。AAC就是AdvancedAudioCoding(先進音頻編碼)的意思,適用于從比特率在8kbit/s單聲道的電話音質(zhì)到160kbit/s多聲道的超高質(zhì)量音頻范圍內(nèi)的編碼,并且允許對多媒體進行編碼/解碼。,AAC與MP3相比,增加了諸如對立體聲的完美再現(xiàn)、比特流效果音掃描、多媒體控制、降噪優(yōu)異等MP3沒有的特性,使得在音頻壓縮后仍能完美的再現(xiàn)CD音質(zhì)。AAC技術(shù)主要由以下三個部分組成。第一,AT&T的音頻壓縮技術(shù)專利。它可以將AAC壓縮比提高到20:1而不損失音質(zhì)。這樣,一首3分鐘的歌僅僅需要2.25MB,這在互聯(lián)網(wǎng)上的下載速度是很驚人的。第二、安全數(shù)據(jù)庫。它可以為你的AACMusic創(chuàng)建一個特定的密鑰,將此密鑰存于其數(shù)據(jù)庫中。同時,只有AAC的播放器才能播放含有這種密鑰第三、協(xié)議認證。這個認證包含了復(fù)制許可、允許復(fù)制副本數(shù)目、歌曲總時間、歌曲可以播放時間以及售賣許可等信息。,MP4技術(shù)的優(yōu)越性要遠遠高于MP3,因為它更適合多媒體技術(shù)的發(fā)展以及視聽欣賞的需求。但是,MP4是一種商品,它利用改良后的MPEG-2AAC技術(shù)并強加上由出版公司直接授權(quán)的知識產(chǎn)權(quán)協(xié)議作為新的標(biāo)準(zhǔn);而MP3是一種自由音樂格式,任何人都可以自由使用。此外,MP4實際上是由音樂出版界聯(lián)合授意的官方標(biāo)準(zhǔn);MP3則是廣為流傳的民間標(biāo)準(zhǔn)。相比之下,MP3的靈活和自由度要遠遠大于MP4,這使得音樂發(fā)燒友們更傾向于使用MP3。更重要的一點是,MP3是目前最為流行的一種音樂格式,它占據(jù)著大量的網(wǎng)絡(luò)資源,這使得MP4的推廣普及難上加難。,3.3.4樂器數(shù)字接口MIDI,產(chǎn)生MIDI樂音的方法很多,現(xiàn)在用得較多的方法有兩種:一種是頻率調(diào)制(frequencymodulation,F(xiàn)M)合成法,另一種是樂音樣本合成法,也稱為波形表(Wavetable)合成法。這兩種方法目前主要用來生成音樂。FM合成器生成樂音的工作原理主要是把幾種樂音的波形用數(shù)字來表達,并且用數(shù)字計算機而不是用模擬電子器件把它們組合起來,通過數(shù)模轉(zhuǎn)換器(digitaltoanalogconvertor,DAC)來生成樂音。但是使用FM合成法來產(chǎn)生各種逼真的樂音是相當(dāng)困難的,有些樂音幾乎不能產(chǎn)生。樂音樣本合成法就是把真實樂器發(fā)出的聲音以數(shù)字的形式記錄下來,播放時改變播放速度,從而改變音調(diào)周期,生成各種音階的音符。樂音樣本的采集相對比較直觀。,MIDI協(xié)議提供了一種標(biāo)準(zhǔn)的和有效的方法,用來把演奏信息轉(zhuǎn)換成電子數(shù)據(jù)。MIDI信息是以“MIDImessages”傳輸?shù)?,它可以被認為是告訴音樂合成器(musicsynthesizer)如何演奏一小段音樂的一種指令,而合成器把接收到的MIDI數(shù)據(jù)轉(zhuǎn)換成聲音。國際MIDI協(xié)會(InternationalMIDIAssociation)出版的MIDI1.0規(guī)范對MIDI協(xié)議作了完整的說明。,MIDI數(shù)據(jù)流是單向異步的數(shù)據(jù)位流(bitstream),其速率為31.25kbps,每個字節(jié)為10位(1位開始位,8位數(shù)據(jù)位和1位停止位)。MIDI樂器上的MIDI接口通常包含3種不同的MIDI連接器,用IN(輸入),OUT(輸出)和THRU(穿越)。MIDI數(shù)據(jù)流通常由MIDI控制器(MIDIcontroller)產(chǎn)生,如樂器鍵盤(musicalinstrumentkeyboard),或者由MIDI音序器(MIDIsequencer)產(chǎn)生。MIDI控制器是當(dāng)作樂器使用的一種設(shè)備,在播放時把演奏轉(zhuǎn)換成實時的MIDI數(shù)據(jù)流,MIDI音序器是一種裝置,允許MIDI數(shù)據(jù)被捕獲、存儲、編輯、組合和重奏。來自MIDI控制器或者音序器的MIDI數(shù)據(jù)輸出通過該裝置的MIDIOUT連接器傳輸。,3.4常用音頻處理軟件簡介,3.4.1CoolEditPro,,CoolEditPro是著名的Syntrillium公司開發(fā)的數(shù)字音頻處理軟件,其運行環(huán)境為Windows啟動后其界面如右圖所示。,,CoolEditPro的主要特色有:(1).支持的音頻格式十分豐富,多達十余種,還提供了對5種不同類型WAV文件的支持。(2).提供豐富的特殊效果。包括3D混響、降噪、濾波、音頻縮/放、合聲、延遲、變形、反轉(zhuǎn)、靜音等。(3).提供了強大的DSP(數(shù)字信號處理)能力。能夠同時處理64條音軌。支持錄音、回放、混音、音頻編輯。借助它,能夠方便地制作出自己想要的任何特殊音效,并添加到各種類型的多媒體作品中去。(4).操作界面設(shè)計簡捷方便。在工具欄中,提供了56個圖形化按鈕。幾乎所有的編輯操作都能夠方便地進行操作。,3.4.2GoldWave,GoldWave的窗口界面如圖下圖所示。,GoldWave是一款相當(dāng)不錯的數(shù)碼錄音及編輯軟件,除了附有許多的效果處理功能外,它還能將編輯好的文件存為WAV、AU、SND、RAW和AFC等格式,而且它可以不經(jīng)由聲卡直接抽取SCSI形式的CDROM中的音樂來錄制編輯。作為Wave文件編輯處理工具,支持從MP3、MPG、AVI、ASF、MOV等文件中提取音頻進行編輯,所以除了它強大的編輯功能外,用作把以上格式的音頻轉(zhuǎn)換成WAV文件也是很方便的。GoldWave同時是較新的、適合于一般進行音頻素材采集與制作的軟件,它集音頻錄制和編輯于一體,不僅是一個錄音程序,可以很方便地制作CAI課件的背景音樂、音效、錄制CD、轉(zhuǎn)換音樂格式等,而且還具有各種復(fù)雜的音樂編輯和特效處理功能。該軟件不需要安裝,只要運行程序文件夾中的可執(zhí)行程序即可。GoldWave小巧玲瓏,只有600K左右,可從下載。,3.4.3CakeWalk(音樂大師),,作為一種圖形化的音樂編輯軟件,CakeWalk的主要工作界面就是各種工作窗口,我們對MIDI事件和音頻事件的所有編輯和操作都是在工作窗口中完成的。如下圖所示,音軌窗既是CakeWalk主界面的主要組成部分,也是重要的工作窗口。類似的還有鋼琴窗簾、事件列表窗、調(diào)音臺窗等,每個窗口各有所長,分別適用于不同的編輯對象和編輯特征。,1.Cakewalk的調(diào)音臺可以自動混音,可以一邊播放樂曲,一邊記錄控制鍵(滑鍵)的調(diào)整動作,而且多個控制鍵可以編組控制,這為制作漸強減弱效果提供了最為簡單的操作手段。2.對于所有連續(xù)變化的數(shù)據(jù),例如彎音、調(diào)制、控制器、鍵速和速度等,Cakewalk都提供了手工劃線的編輯方式,用鼠標(biāo)劃一條斜線或曲線便可隨意改變數(shù)值。因此,對于像彎音輪的細微變化過程、速度的自由變化等之類較難處理的數(shù)據(jù),在Cakewalk中都變得異常簡單。3.Cakewalk可以將其所有菜單操作命令賦予MIDI鍵盤,也就是說,可以用合成器的鍵盤來控制軟件的各種操作,其功能是所有音序軟件中最全面的。4.Cakewalk可以將音符的位置、控制器的變化等MIDI信息圖形化地顯示出來,因此看起來更加接近總譜。,CakewalkProAudio的一些特色功能,3.5波形音頻文件的采集與制作,3.5.1利用“錄音機”生成和編輯波形文件Windows錄音機的主要功能是錄音和放音,使用“錄音機”可以錄制、混合、播放和編輯聲音,也可以將聲音鏈接或插入到另一文檔中。其主要功能操作如下所述:(1)波形文件的錄制:確保音頻輸入設(shè)備已經(jīng)連接到計算機。錄音機常用的輸入設(shè)備是麥克風(fēng)和CD-ROM播放機。(2)波形文件的存儲:存儲的文件格式為波形(.wav)文件。(3)聲音的編輯:復(fù)制、粘貼、插入、刪除等操作。(4)音頻變換與特殊效果:更改聲音的大小、速度、回音等。,CoolEditPro是一種非常出色的聲音編輯器,其主要功能操作如下所述。(1)波形文件的錄制:錄制及錄制參數(shù)(采樣率、量化位數(shù)、單雙聲道等)的設(shè)定。(2)波形文件的存儲:存儲的文件格式(.wav、.au、.smp、.asf、.wma等)的選擇,文件格式與參數(shù)(采樣率、量化位數(shù)、單雙聲道)的變換。(3)波形文件選定范圍播放,記錄播放時間。(4)聲音的編輯:剪切、拷貝、混合粘貼、插入多軌工程、插入多軌播放列表、刪除靜音、零點定位、確定節(jié)拍等。(5)聲音的變換與特殊效果:降噪、擴音、剪接、添加立體環(huán)繞、淡入淡出、3D回響等音效。,3.5.2用CoolEditPro編輯制作波形文件,3.6聲音文件格式的互換,1.選擇聲音文件格式的部分原則1)Wav文件:不僅所有的Windows的音效處理應(yīng)用程序都可以播放WAVE文件,而且常見的各種多媒體編輯制作軟件的音效播放都能直接使用WAV文件。再者,WAV格式的音質(zhì)效果也不錯。2)MP3文件:如果通過適當(dāng)?shù)墓ぞ邅斫厝D上的數(shù)字音頻并保存為CD音質(zhì)的WAVE文件,然后進行MPEGLayer3的壓縮編碼形成MP3文件,再用合適的解碼軟件對MP3解碼。那么可以形成一個節(jié)約大量存儲空間,保持CD音質(zhì)的整體解決方案。3)MIDI文件:是多媒體計算機產(chǎn)生音頻(特別是音樂)的另一種主要方式,可以滿足需要長時間音樂的場合。,4)SWA文件:SWA格式的音樂文件,是Authorware4.0以上版本支持的特殊音樂格式,它的容量類似于流行的MP3,也非常小。在Authorware4.0或4.0以上版本中,自帶WAV→SWA轉(zhuǎn)換器,,3.6.2轉(zhuǎn)換CD音軌,下面以比較常用的CDCopy為例來說明一下如何轉(zhuǎn)換CD音軌。CDCopy是一個常用的抓音軌工具,它對爛盤的糾錯性能非常好,還可以把CD音軌轉(zhuǎn)換為WAV、AU、RA、YamahaVQF、AAC、MP3等多種聲音格式,而且CDCopy是一個共享軟件,我們可以從下載到它的最新版本。抓取及轉(zhuǎn)換音軌步驟分以下3步:1.選擇文件格式2.設(shè)置文件保存路徑3.轉(zhuǎn)換音軌,3.7.1語音識別的發(fā)展歷史可以將語音識別近六十年的發(fā)展歷史劃分為4個時期:(1)初始發(fā)展期(2)基礎(chǔ)突破期(3)綜合發(fā)展期(4)成熟期,3.7語音識別技術(shù)及應(yīng)用,3.7.2語音識別技術(shù),語音識別以語音為研究對象,是語音信號處理的一個重要研究方向,是模式識別的一個分支,其目的就是要讓機器具有人的聽覺功能,在人機語音通訊中“聽懂”人類口述的語言。根據(jù)不同的需求,語音識別的識別內(nèi)容可分為狹義的語音識別和說話人語音識別。,1.語音識別技術(shù)的基礎(chǔ),一個完整的語音識別系統(tǒng)可大致分為三部分:(1)語音特征提?。浩淠康氖菑恼Z音波形中提取出隨時間變化的語音特征序列。(2)聲學(xué)模型與模式匹配(識別算法):聲學(xué)模型通常將獲取的語音特征通過學(xué)習(xí)算法產(chǎn)生。在識別時將輸入的語音特征同聲學(xué)模型(模式)進行匹配與比較,得到最佳的識別結(jié)果。(3)語言模型與語言處理:語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計方法構(gòu)成的語言模型,語言處理可以進行語法、語義分析。對小詞表語音識別系統(tǒng),往往不需要語言處理部分。,聲學(xué)模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型的目的是提供一種有效的方法計算語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計和語言發(fā)音特點密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)對語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識別率,以及靈活性有較大的影響。必須根據(jù)不同語言的特點、識別系統(tǒng)詞匯量的大小決定識別單元的大小。,語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯誤時可以根據(jù)語言學(xué)模型、語法結(jié)構(gòu)、語義學(xué)進行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學(xué)理論包括語義結(jié)構(gòu)、語法規(guī)則、語言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語言模型通常是采用統(tǒng)計語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令語言模型。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識別。,2.語音識別的基本原理,,預(yù)處理包括語音信號采樣、反混疊帶通濾波、去除個體發(fā)音差異和設(shè)備、環(huán)境引起的噪聲影響等,并涉及到語音識別基元的選取和端點檢測問題:特征提取部分用于提取語音中反映本質(zhì)特征的聲學(xué)參數(shù),如平均能量、平均跨零率、共振峰等;訓(xùn)練在識別之前進行,通過讓講話者多次重復(fù)語音,從原始語音樣本中去除冗余信息,保留關(guān)鍵數(shù)據(jù),再按照一定規(guī)則對數(shù)據(jù)加以聚類,形成模式庫;模式匹配部分是整個語音識別系統(tǒng)的核心,它是根據(jù)一定的準(zhǔn)則(如某種距離測度)以及專家知識(如構(gòu)詞規(guī)則、語法規(guī)則、語義規(guī)則等),計算輸入特征與庫存模式之間的相似度,判斷出輸入語音的語意信息。,3.處理的方法:(1)連續(xù)語音流的預(yù)處理波形硬件采樣率的確定、分幀大小與幀移策略的確定;剔除噪聲的帶通濾波、高頻預(yù)加重處理、各種變換策略;波形的自動切分(依賴于識別基元的選擇方案)。,(2)特征參數(shù)提取識別語音的過程,實際上是對語音特征參數(shù)模式的比較和匹配的過程。語音特征參數(shù)的選取對系統(tǒng)識別結(jié)果起著重要的作用。因此,必須尋找一個既能充分表達語音特征又能彼此區(qū)別的特征參數(shù),這是語音識別中的一個最重要基本問題。語音識別系統(tǒng)常用的特征參數(shù)有線性預(yù)測系數(shù)、倒頻譜系數(shù)、平均過零率、能量、短時頻譜、共振峰頻率及帶寬等。,(3)參數(shù)模板存儲。在建立識別系統(tǒng)時,首先進行特征參數(shù)提取,然后對系統(tǒng)進行訓(xùn)練和聚類。通過訓(xùn)練,系統(tǒng)建立并存儲一個該系統(tǒng)需識別字(或音節(jié))的參數(shù)模板庫。(4)識別判決。識別時,待識語音信號經(jīng)過與訓(xùn)練時相同的特征參數(shù)提取后,與模式模板存儲器中的模式進行匹配計算和比較,并根據(jù)一定的規(guī)則進行識別判決,最后輸出識別結(jié)果。,3.7.3語音識別系統(tǒng)的類型,1.按可識別的詞匯量多少2.按照語音的輸入方式3.按發(fā)音者為特定/非特定人4.按發(fā)音者的聲紋,3.7.4語音識別的應(yīng)用,1.在信息處理領(lǐng)域的應(yīng)用(1)給計算機發(fā)送指令。(2)聽寫系統(tǒng)。(3)信息查詢。(4)網(wǎng)上交談。2.教育與商務(wù)應(yīng)用(1)語音教學(xué)軟件。(2)電話查詢。(3)電子商務(wù)。3.消費電子產(chǎn)品應(yīng)用,第三章小結(jié),,聲音是攜帶信息的重要媒體,對音頻信息的處理是多媒體技術(shù)研究的一個重要方面。聲音種類繁多,且不同種類的聲音之間既有共性也有自身的特性。在本章的前3節(jié)主要介紹了音頻信息處理的基本知識和音頻信號壓縮及編碼等理論。在后4節(jié)中先介紹了常用音頻處理軟件及聲音文件的制作、轉(zhuǎn)換等實際應(yīng)用,最后介紹了一個目前較熱門的應(yīng)用領(lǐng)域—語音識別技術(shù)。,第3章討論題,1.聲音按其特性分為哪幾類?舉例說明。,分為規(guī)則和不規(guī)則兩類。不規(guī)則指不含任何信息的噪音;規(guī)則聲音分為語音、音樂和音效。語音是指具有語言內(nèi)涵和人類約定俗成的特殊媒體,音樂是規(guī)范的、符號化的聲音,音效是指人類熟悉的其他聲音,如雨聲、雷聲、機器轟鳴聲。,2.聲音具有哪3個要素?舉例說明。,音強、音調(diào)、音色。,3.聲音數(shù)字化分為哪兩個步驟?,采樣就是每隔一段時間就讀一次聲音信號的幅度,記錄下來的原始模擬聲波在某一時刻的狀態(tài),稱之為樣本;每秒鐘抽取聲波幅度樣本的次數(shù),稱為采樣頻率,采樣頻率的高低由奈奎斯特采樣訂立和聲音信號本身的最高頻率決定;常用的有8kHz,11.025kHz,22.05,kHz16kHz,44.1kHz,48kHz等。量化:把采樣得到的聲波幅度轉(zhuǎn)化為數(shù)字值,也就是把某一幅度范圍內(nèi)的電壓用用一個數(shù)字表示。量化位數(shù)是每個采樣點能夠表示的數(shù)據(jù)范圍,有8/12/16/32位。量化級的大小決定了聲音的動態(tài)范圍,即被記錄和重放的聲音最高與最低之間的差值。量化有很多種方法,可歸納為兩類,均勻量化和非均勻量化。,4.從人機交互的角度看,音頻信號有哪些處理過程?,1.音頻獲?。ㄓ嬎銠C接收音頻信號):語音識別和理解。2.音頻合成(計算機輸出音頻信號):語音合成和音樂合成;3.聲音定位:包括立體聲模擬、音/視頻同步。4.人通過網(wǎng)絡(luò)與別人通信:語音采集、音頻編碼/解碼,音頻傳輸?shù)取?5.聲卡有哪些主要功能?,1.錄制、編輯和回放聲音文件;2.控制各個音源的音量,混合后再數(shù)字化;3.記錄和回放聲音文件;4.文語轉(zhuǎn)換和語音識別;5.MIDI接口和音樂合成。,6.聲卡有哪些主要技術(shù)指標(biāo)?,1.采樣率與量化位;2.FM合成與波形表;3.外圍接口;4.音頻壓縮;5.DSP芯片;6.軟件支持。,實驗題,1、清制作一段自己的錄音文件,并配背景音樂,寫出制作步驟。2、請敘述用CoolEditPro取出某段錄音文件中的環(huán)境噪音的步驟。3、請把某段正常速度錄制的語音文件,在保持語調(diào)不變的情況下把語速降低到正常語速的70%。,- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 雷運發(fā)第 音頻 信息處理
鏈接地址:http://www.3dchina-expo.com/p-3259842.html