本書從基礎(chǔ)理論到專業(yè)知識,從基本原理到實際系統(tǒng)和仿真設(shè)計,從簡單到復(fù)雜,深入淺出、圖文并茂、有案有例、系統(tǒng)地介紹了音頻信息處理的基礎(chǔ)理論、基本方法和簡要算法。本書共有十章,包括緒論、音頻信息處理與識別系統(tǒng)、音頻信息采集與數(shù)字化、音頻信息變換、音頻信息編碼、音頻信息濾波、音頻信息增強、音頻信息的信噪分離、音頻信息的分割與合成、音頻信息的編輯。
本書可以作為從事通信與信息工程、信號與信息處理、信息技術(shù)與電子工程、計算機網(wǎng)絡(luò)與多媒體技術(shù)、自動化與智能化、生物醫(yī)學(xué)工程等方面的教學(xué)、科研、工程、技術(shù)人員學(xué)習(xí)參考,也可作為大專院校相關(guān)專業(yè)的本科和研究生教材。
★ 概念清晰、深入淺出、通俗易懂、難易適中、適合教學(xué)。在介紹信源編碼時,不是簡單地復(fù)制國際標準,二是著重講述人咧的聽覺特性、壓縮編碼的原理及方法,各種標準的產(chǎn)生背景、特點及應(yīng)用領(lǐng)域。
★ 實用性強,適用面寬。能滿足大多數(shù)院校的教學(xué)需求。
聲音,自從宇宙形成以來,就形成于宇宙,就存在于宇宙。不過,那些聲音是自然聲,例如風(fēng)聲、雨聲、雷電聲;浪聲、水聲、爆炸聲等。聲音,自從動物形成以來,就產(chǎn)生于動物界,就存在于動物界。一些聲音是動物聲,例如鳴叫、會話、歌唱、運動聲等。一些聲音是人類聲,例如語音、歌聲、讀書聲;笑聲、哭聲、呼叫聲等。還有一些聲音是人造聲,例如樂音、鐘聲、機器聲等。
聲音的感知、傳輸、處理、識別、存儲,自從動物形成以來,就產(chǎn)生于動物界,就存在于動物界。最早的,也是最原始的聲音感知,是動物的聲音傳感細胞、組織或器官。最早的,也是最原始的聲音傳輸,是動物的發(fā)聲細胞、組織或器官。最早的,也是最原始的聲音處理,是動物的神經(jīng)細胞、組織、器官或大腦。最早的,也是最原始的聲音識別,也是動物的神經(jīng)細胞、組織、器官或大腦。聲音感知、傳輸、處理、識別、存儲的能力,隨著動物的進化、進步、升級而增強。人類是進化最大、進步最快、級別最高的動物,具有最強的聲音感知、傳輸、處理、識別、存儲的能力。
迄今為止,最早的最原始的聲音感知、傳輸、處理、識別、存儲,仍然存在于動物界,進行于動物界。但是,隨著宇宙的進化,動物界的發(fā)展,人類世界和人類社會的快速進步和高速發(fā)展,與時俱進的現(xiàn)實化和現(xiàn)代化,最早的最原始的聲音感知、傳輸、處理、識別、存儲已經(jīng)不能適應(yīng)宇宙的進化,已經(jīng)不能適應(yīng)人類世界和人類社會的進步和發(fā)展。人類需要高深的理論、先進的方法、高級的手段、嶄新的設(shè)施進行聲音感知、傳輸、處理、識別、存儲,去適應(yīng)世界的變革,去滿足社會的需求,去解決社會的問題,去維系人類的生成。因此,聲音感知、傳輸、處理、識別、存儲的研究具有不可缺少的重大的理論意義和社會價值。
音頻信息感知、傳輸、處理、識別、存儲,最早的恐怕要算是1876年3月10日美籍英國人亞歷山大?格雷厄姆?貝爾(Alexander Graham Bell)發(fā)明的貝爾電話(Bell Telephone)。貝爾電話是把聲音轉(zhuǎn)換成音頻電信號,音頻電信號通過金屬線從電話發(fā)送端傳輸?shù)诫娫捊邮斩,在電話接收端,再把音頻電信號轉(zhuǎn)換成聲音。貝爾電話包含了音頻信息的感知和傳輸功能,但還沒有音頻信息處理和識別功能。貝爾電話也是最早的有線通信系統(tǒng)(Cable Communication)。后來,貝爾電話經(jīng)過不斷的研究、改進、創(chuàng)新,發(fā)展成了當代的電信網(wǎng)絡(luò)電話和電信網(wǎng)絡(luò)通信(Telecommunication)。如今的電信網(wǎng)絡(luò)電話和通信具有高級先進的聲電轉(zhuǎn)換和電聲轉(zhuǎn)換,強大的智能化的音頻信息傳輸、處理、識別、存儲功能。貝爾有線電話也發(fā)展成了當代的無線電話(Wireless Phone)和移動電話(Mobile Phone)。如今,移動電話比電信電話功能更強大,智能化程度更高。盡管當代的電信電話和移動電話非常先進,非常高級,非常智能化,但是,它們?nèi)匀恍枰^續(xù)研究,不斷創(chuàng)新,向前發(fā)展,更先進更智能地滿足人類更高更多更美好的需求。
音頻信息存儲,最早的恐怕要算是1877年8月15日美國人托馬斯?阿爾瓦?愛迪生(Thomas Alva Edison)發(fā)明的留聲機(Gramophone)和唱片(Microgroove)。愛迪生留聲機是把聲音轉(zhuǎn)換成波形軌道存儲在介質(zhì)唱片上,被稱為留聲,即錄音;胤艜r再從介質(zhì)唱片上讀取軌道波形轉(zhuǎn)換成聲音,被稱為放聲,或放唱。愛迪生留聲機只有聲音的存/取功能,還沒有聲音的傳輸、處理和識別功能。愛迪生留聲機當時也被稱為說話機。后來,愛迪生留聲機經(jīng)過不斷的研究、改進、創(chuàng)新,發(fā)展成了當代的有線無線電聲音視網(wǎng)絡(luò)系統(tǒng)。如今的有線無線電聲音視網(wǎng)絡(luò)系統(tǒng)具有高級先進的聲電轉(zhuǎn)換和電聲轉(zhuǎn)換,強大的智能化的音頻信息傳輸、處理、識別、存儲功能。盡管當代的電聲音視系統(tǒng)非常先進,非常高級,非常智能化,但是,它們?nèi)匀恍枰^續(xù)研究,不斷創(chuàng)新,向前發(fā)展,更先進更智能地滿足人類更高更多更美好的需求。
隨著人類的進步和社會的發(fā)展,人們對音頻信息的感知、傳輸、處理、識別、存儲的需求越來越多,要求越來越高。當前,海量音頻信息感知的速度、精度、靈敏度、分辨率、質(zhì)量、自動化程度、智能化程度等還不夠高,海量音頻信息的傳輸、處理、識別的速度、精度、效率、自動化程度、智能化程度等還不夠高,海量音頻信息的存儲空間和存儲容量還不夠大,存取的速度、自動化程度、智能化程度等還不夠高。因此,音頻信息感知、傳輸、處理、識別、存儲的新理論、新方法、新技術(shù)、新工藝、新設(shè)備的探索、研究、創(chuàng)新、開發(fā)不能停滯不前,需要繼續(xù)不斷的努力。音頻信息的感知、傳輸、處理、識別、存儲中,音頻信息的感知和存儲是音頻信息的源頭和尾閭,音頻信息的識別是終極目標,音頻信息處理是實現(xiàn)終極目標的關(guān)鍵,音頻信息傳輸是連接音頻信息感知、處理、識別、存儲的橋梁。因此音頻信息處理的研究是必不可少,非常重要、非常關(guān)鍵的。
前言1
第1章緒論4
1.1.序言4
1.2.聲學(xué)基礎(chǔ)6
1.3.人類聽覺感知基礎(chǔ)10
1.3.1.人類聽覺感知系統(tǒng)10
1.3.2.人類聽覺感知的特性12
1.3.3.人類聽覺感知效應(yīng)13
1.3.4.人類聽覺感知力與評價14
1.4.音頻信息處理理論與技術(shù)14
1.5.本章小結(jié)16
第2章音頻信息處理與識別系統(tǒng)18
2.1.音頻信息處理與識別系統(tǒng)結(jié)構(gòu)18
2.2.音頻信息處理與識別硬件系統(tǒng)19
2.3.音頻信息處理與識別軟件系統(tǒng)21
2.4.音頻信息處理軟件系統(tǒng)23
2.5.音頻信息識別軟件系統(tǒng)24
2.6.本章小結(jié)26
第3章音頻信息采集與數(shù)字化28
3.1.概述28
3.2.聲音傳感器28
3.3.前置放大器31
3.4.A/D模數(shù)轉(zhuǎn)換器35
3.5.音頻信息采樣39
3.5.1.等間隔周期的線性采樣40
3.5.2.非等間隔非周期的非線性采樣43
3.6.音頻信息量化45
3.6.1.等間隔線性量化函數(shù)45
3.6.2.非等間隔非線性量化函數(shù)46
3.6.3.非等間隔自適應(yīng)量化函數(shù)47
3.7.音頻信息的描述48
3.7.1.時間域描述48
3.7.2.頻率域描述49
3.7.3.軟件域描述49
3.8.音頻信息文件格式49
3.9.本章小結(jié)51
第4章音頻信息變換55
4.1.正交變換55
4.2.傅里葉變換56
4.2.1.一維連續(xù)傅立葉變換56
4.2.2.二維連續(xù)傅立葉變換57
4.2.3.一維離散傅立葉變換57
4.2.4.二維離散傅立葉變換58
4.2.5.矩陣與快速傅立葉變換59
4.2.6.快速傅里葉變換60
4.2.7.傅立葉變換的性質(zhì)61
4.3.余弦變換63
4.3.1.一維連續(xù)余弦變換63
4.3.2.二維連續(xù)余弦變換64
4.3.3.一維離散余弦變換64
4.3.4.二維離散余弦變換65
4.3.5.矩陣與快速余弦變換66
4.4.沃爾什變換68
4.4.1.一維沃爾什變換68
4.4.2.二維沃爾什變換72
4.4.3.快速沃爾什變換。73
4.4.4.沃爾什變換的性質(zhì)74
4.5.哈爾變換77
4.5.1.一維哈爾變換77
4.5.2.二維哈爾變換80
4.5.3.哈爾函數(shù)的性質(zhì)81
4.5.4.快速哈爾變換81
4.6.Gabor變換83
4.6.1.一維連續(xù)Gabor變換83
4.6.2.一維連續(xù)Gabor變換的另一種形式85
4.6.3.一維離散Gabor變換86
4.6.4.二維連續(xù)Gabor變換86
4.6.5.二維離散Gabor變換87
4.6.6.Gabor變換的性質(zhì)87
4.7.小波變換88
4.7.1.一維連續(xù)小波變換89
4.7.2.一維離散小波變換92
4.7.3.二維連續(xù)小波變換94
4.7.4.二維離散小波變換95
4.7.5.快速小波變換95
4.7.6.小波變換的性質(zhì)96
4.8.KL變換98
4.8.1.KL變換98
4.8.2.KL變換的性質(zhì)100
4.9.希爾伯特變換100
4.9.1.連續(xù)信號的Hilbert變換100
4.9.2.離散信號的Hilbert變換102
4.10.本章小結(jié)103
第5章音頻信息編碼106
5.1.概述106
5.2.霍夫曼編碼106
5.3.仙農(nóng)-范諾編碼110
5.4.算數(shù)編碼113
5.5.行程編碼116
5.6.LZW編碼117
5.7.余弦變換編碼120
5.8.小波變換編碼122
5.9.矢量量化編碼124
5.10.預(yù)測編碼127
5.11.PCM編碼130
5.12.子帶編碼131
5.13.國際編碼標準132
5.14.本章小結(jié)135
第6章音頻信息濾波140
6.1.概述140
6.2.低通濾波141
6.2.1.理想低通濾波141
6.2.2.指數(shù)低通濾波142
6.2.3.梯形低通濾波143
6.2.4.高斯低通濾波144
6.2.5.巴特沃爾斯低通濾波145
6.3.高通濾波145
6.3.1.理想高通濾波145
6.3.2.指數(shù)高通濾波147
6.3.3.梯形高通濾波148
6.3.4.高斯高通濾波149
6.3.5.巴特沃爾斯高通濾波150
6.4.帶通濾波150
6.4.1.理想帶通濾波150
6.4.2.指數(shù)帶通濾波152
6.4.3.梯形帶通濾波153
6.4.4.高斯帶通濾波154
6.4.5.巴特沃爾斯帶通濾波155
6.5.帶阻濾波156
6.5.1.理想帶阻濾波156
6.5.2.指數(shù)帶阻濾波157
6.5.3.梯形帶阻濾波159
6.5.4.高斯帶阻濾波159
6.5.5.巴特沃爾斯帶阻濾波160
6.6.梳狀濾波161
6.6.1.理想梳狀濾波161
6.6.2.指數(shù)梳狀濾波161
6.6.3.梯形梳狀濾波162
6.6.4.高斯梳狀濾波162
6.6.5.巴特沃爾斯梳狀濾波163
6.7.頻域濾波器的參數(shù)164
6.8.復(fù)原濾波166
6.9.時域濾波169
6.9.1.均值濾波169
6.9.2.中值濾波170
6.9.3.微分濾波171
6.9.4.積分濾波172
6.9.5.微分積分濾波172
6.9.6.線性組合濾波173
6.9.7.高斯-拉普拉斯濾波173
6.9.8.Gabor濾波174
6.10.卡爾曼濾波174
6.10.1.卡爾曼濾波175
6.10.2.擴展的卡爾曼濾波176
6.11.本章小結(jié)178
第7章音頻信息增強181
7.1.概述181
7.2.時間域增強181
7.2.1.加減增強181
7.2.2.乘除增強182
7.2.3.線性增強182
7.2.4.指數(shù)增強182
7.2.5.對數(shù)增強183
7.2.6.冪函數(shù)增強183
7.2.7.高斯增強183
7.2.8.巴特沃爾斯增強183
7.2.9.平滑增強184
7.2.10.銳化增強184
7.3.頻率域增強185
7.3.1.加減增強185
7.3.2.乘除增強185
7.3.3.線性增強186
7.3.4.指數(shù)增強186
7.3.5.對數(shù)增強186
7.3.6.冪函數(shù)增強187
7.3.7.高斯增強187
7.3.8.巴特沃爾斯增強187
7.3.9.平滑增強187
7.4.直方圖增強189
7.4.1.概率統(tǒng)計直方圖189
7.4.2.時域幅度直方圖增強190
7.5.模式增強196
7.5.1.加減增強197
7.5.2.乘除增強197
7.5.3.線性增強197
7.5.4.指數(shù)增強198
7.5.5.對數(shù)增強198
7.5.6.冪函數(shù)增強198
7.5.7.高斯增強199
7.5.8.巴特沃爾斯增強199
7.5.9.平滑增強199
7.5.10.銳化增強200
7.5.11.微分銳化增強200
7.5.12.微分積分銳化增強200
7.6.特殊效果增強200
7.6.1.延時增強201
7.6.2.回聲增強回聲201
7.6.3.混響增強203
7.6.4.調(diào)制增強205
7.7.本章小結(jié)207
第8章音頻信息的信噪分離208
8.1.概述208
8.2.時間域分離208
8.2.1.微分信噪分離208
8.2.2.積分信噪分離209
8.3.頻率域分離209
8.3.1.高通濾波譜減信噪分離210
8.3.2.低通濾波譜減信噪分離210
8.3.3.帶阻濾波譜減信噪分離210
8.4.變換域信噪分離211
8.4.1.直方圖變換信噪分離211
8.4.2.Gabor變換信噪分離212
8.4.3.小波變換信噪分離214
8.5.噪聲對消215
8.5.1.噪聲模型216
8.5.2.噪聲對消220
8.5.3.RLSE算法224
8.6.本章小結(jié)225
第9章音頻信息的分割與合成228
9.1.概述228
9.2.端點檢測的分割228
9.2.1.功率譜單閾值法229
9.2.2.局部最小平均功率法230
9.2.3.功率譜雙峰谷點法232
9.2.4.功率譜多峰谷點法234
9.3.包絡(luò)檢測的分割236
9.3.1.檢波法包絡(luò)檢測237
9.3.2.低通濾波法包絡(luò)檢測238
9.3.3.極值定理法包絡(luò)檢測240
9.3.4.包絡(luò)檢測目標分割244
9.4.Gabor濾波和變換的分割244
9.4.1.Gabor濾波的目標信息分割245
9.4.2.Gabor變換的目標信息分割246
9.5.小波變換的分割247
9.6.幅度合成249
9.6.1.加性合成249
9.6.2.乘性合成250
9.6.3.綜合合成250
9.6.4.調(diào)制合成251
9.6.5.卷積合成251
9.7.頻率合成252
9.7.1.加性合成252
9.7.2.乘性合成252
9.7.3.綜合合成253
9.7.4.卷積合成253
9.8.變換合成254
9.8.1.對數(shù)變換合成254
9.8.2.Gabor變換合成255
9.8.3.小波變換合成255
9.9.本章小結(jié)255
第10章音頻信息的編輯258
10.1.概述258
10.2.線性編輯258
10.3.非線性編輯260
10.4.算術(shù)編輯262
10.5.本章小結(jié)271