本書介紹了語音信號處理的基礎(chǔ)、原理、方法和應(yīng)用,以及該學(xué)科領(lǐng)域近年來取得的一些新的研究成果和技術(shù)。全書共分13章,內(nèi)容包括:緒論、語音信號處理的基礎(chǔ)知識、語音信號處理的常用算法、語音信號分析、語音信號特征提取技術(shù)、語音增強、語音識別、說話人識別、語音編碼、語音合成與轉(zhuǎn)換、語音信號情感處理、聲源定位、多模態(tài)語音信號處理。
本書可作為高等院校的教材或教學(xué)參考書,同時也可供語音信號處理等領(lǐng)域的工程技術(shù)人員參考。
第4版教材與第3版相比,系統(tǒng)介紹了深度學(xué)習(xí)技術(shù)的基本原理以及典型方法,并且在語音增強、說話人識別、語音編碼、語音合成與轉(zhuǎn)換、語音信號情感處理各章增加了深度學(xué)習(xí)技術(shù)在上述方向上的應(yīng)用。增加了有關(guān)多模態(tài)語音信號處理的內(nèi)容,在第13章中介紹了這個全新方向上的最新理論與應(yīng)用成果。
本教材入選戰(zhàn)略性新興領(lǐng)域十四五高等教育教材體系建設(shè)團隊新一代信息技術(shù)(新一代通信技術(shù))。本教材的出版得到了國家自然科學(xué)基金面上項目、江蘇省高等教育教學(xué)改革重中之重研究課題、江蘇省教育科學(xué)十四五規(guī)劃重點課題資助。
《語音信號處理》是根據(jù)機械工業(yè)出版社高等院校通信與信息專業(yè)系列教材出版規(guī)劃,由通信與信息專業(yè)系列教材編審委員會編審、推薦出版的。自從2016年5月第3版出版以來,本學(xué)科領(lǐng)域的理論與實踐研究迅速發(fā)展,分析方法不斷更新,技術(shù)應(yīng)用范圍日益擴展,對本教材內(nèi)容的更新和結(jié)構(gòu)體系的進一步完善提出了更高的要求。面對這一情況,我們結(jié)合教學(xué)實踐,逐步明確了編寫本書第4版追求的目標,這就是在相對穩(wěn)定中力求變革,處理好經(jīng)典理論的論述與最新技術(shù)的相互融合。正是在這樣的指導(dǎo)思想下,編者對第3版教材進行了修訂、補充和更新。
新版教材力求系統(tǒng)地反映語音信號處理的基本原理與方法,以及近年來該領(lǐng)域的新進展和新技術(shù);突出基本概念、原理、方法、應(yīng)用、研究現(xiàn)狀及學(xué)科發(fā)展趨勢。在結(jié)構(gòu)上,按照基礎(chǔ)-分析-處理-應(yīng)用的順序組織材料,從最經(jīng)典的技術(shù)與應(yīng)用逐步過渡到最新最熱門的技術(shù)與應(yīng)用,使之既能滿足教學(xué)需要,又可以反映出本學(xué)科領(lǐng)域近年來發(fā)展的新成果。
第4版教材與第3版相比,除了增減了部分章節(jié)以外,基本保持了原作風(fēng)貌,認真修訂了第3版中的錯誤和疏漏。根據(jù)作者多年來給本科生和研究生講授語音信號處理課程的體會,做了兩個主要的改變。首先,考慮到深度學(xué)習(xí)技術(shù)在語音信號處理領(lǐng)域已經(jīng)得到了廣泛應(yīng)用,我們在第3章中系統(tǒng)介紹了深度學(xué)習(xí)技術(shù)的基本原理以及典型方法,并且在語音增強、說話人識別、語音編碼、語音合成與轉(zhuǎn)換、語音信號情感處理各章增加了深度學(xué)習(xí)技術(shù)在上述方向上的應(yīng)用。其次,考慮到以圖像、視頻、文本、腦電波等為代表的其他模態(tài)信號在引入語音信號處理領(lǐng)域后,可望進一步提升傳統(tǒng)語音信號處理系統(tǒng)性能,完成單一語音模態(tài)難以完成的任務(wù),本版教材還增加了有關(guān)多模態(tài)語音信號處理的內(nèi)容,在第13章中介紹了這個全新方向上的最新理論與應(yīng)用成果。
本教材主要面向信息與通信工程、電子科學(xué)與技術(shù)、模式識別與人工智能、計算機科學(xué)與技術(shù)等學(xué)科有關(guān)專業(yè)的高年級本科生和研究生,也可以作為語音信號處理領(lǐng)域科研技術(shù)人員的參考書。本書的參考學(xué)時為本科生32學(xué)時、研究生40學(xué)時,可以根據(jù)不同的教學(xué)要求對其內(nèi)容進行適當(dāng)取舍,靈活安排講課學(xué)時數(shù)。
本教材由南京郵電大學(xué)魏昕教授、東南大學(xué)趙力教授編著,南京郵電大學(xué)周亮教授提了很多有益的意見和建議,南京工程學(xué)院梁瑞宇教授對本書第3版的編寫做了很大的貢獻,在此一并表示感謝。本教材入選戰(zhàn)略性新興領(lǐng)域十四五高等教育教材體系建設(shè)團隊新一代信息技術(shù)(新一代通信技術(shù))。本教材的出版得到了國家自然科學(xué)基金面上項目(62277032、62071254)、江蘇省高等教育教學(xué)改革重中之重研究課題(2023JSJG021)、江蘇省教育科學(xué)十四五規(guī)劃重點課題(B/2022/01/150)資助。作者參考和引用了一些學(xué)者的研究成果、著作和論文,具體出處見參考文獻。在此,向這些文獻的著作者表示敬意和感謝。
語音信號處理是一門理論性強、實用面廣、內(nèi)容新、難度大的交叉學(xué)科,同時這門學(xué)科又處于快速發(fā)展之中,盡管作者在編寫過程中始終注重理論緊密聯(lián)系實際,力求以盡可能簡明、通俗的語言,深入淺出、通俗易懂地將這門學(xué)科介紹給讀者,但因編者水平有限,書中缺點和錯誤在所難免,敬請廣大讀者批評指正。
2024年6月編者
魏昕,南京郵電大學(xué)通信與信息工程學(xué)院教授、博士生導(dǎo)師,江蘇高校青藍工程中青年學(xué)術(shù)帶頭人。2009年博士畢業(yè)于東南大學(xué),師從趙力教授。主要從事多媒體通信與信息處理、教育信息化、智慧建筑等方面的研究工作。近年來主持國家自然科學(xué)基金面上項目、江蘇省自然科學(xué)基金、江蘇省高等教育教學(xué)改革重中之重研究課題等;在IEEE TCOM/JSAC/TMM/TCSVT/WCM、Computers & Education、通信學(xué)報、電子學(xué)報等國內(nèi)外核心期刊上發(fā)表SCI、SSCI學(xué)術(shù)論文70余篇,出版Springer英文學(xué)術(shù)專著2本;擔(dān)任中國通信學(xué)會通信理論與信號處理專委會委員以及多個電子信息領(lǐng)域國際學(xué)術(shù)會議分論壇主席;獲得中國通信學(xué)會自然科學(xué)一等獎、華夏建設(shè)科學(xué)技術(shù)一等獎、 IEEE Transactions on Multimedia Best Paper Award等多項學(xué)術(shù)獎勵;獲得授權(quán)中國發(fā)明專利30余項、美國發(fā)明專利2項,其中8項已實現(xiàn)成果轉(zhuǎn)化。
趙力,東南大學(xué)信息科學(xué)與工程學(xué)院教授、博士生導(dǎo)師。1998年博士畢業(yè)于日本京都理工大學(xué),師從原日本音響學(xué)會會長新美康永教授,現(xiàn)為中國聲學(xué)學(xué)會理事會理事、中國神經(jīng)心理學(xué)會理事、南京多媒體學(xué)會理事、東南大學(xué)信息處理與應(yīng)用工程研究中心負責(zé)人。主要從事語音信號處理、自然語言處理、聲頻和視頻信號處理、情感信息處理等方面的研究工作。在語音和聲頻信號檢測、漢語連續(xù)語音識別、說話人和環(huán)境自適應(yīng)方法、語音會話系統(tǒng)、語言翻譯系統(tǒng)、聲場景分析、語音信號中的情感信息處理等方面取得了一系列研究成果,曾為數(shù)十家企業(yè)完成音視頻處理系統(tǒng)設(shè)計。已培養(yǎng)博、碩士研究生三百余名;在IEEE TASLP/TIP/TNN、Pattern Recognition、日本音響學(xué)會志、電子學(xué)報、聲學(xué)學(xué)報等國內(nèi)外核心學(xué)術(shù)期刊發(fā)表SCI論文300余篇;主持或參與完成多項國家973項目、國家863項目、國家科技部重點研發(fā)計劃、國家自然科學(xué)基金重點項目/面上項目、重點科技攻關(guān)項目。獲得江蘇省科技進步二等獎3次、科學(xué)技術(shù)二等獎2次、江蘇省教育廳優(yōu)秀課程群教學(xué)一等獎等。
前言
第1章緒論
第2章語音信號處理的基礎(chǔ)知識
2.1語音發(fā)音及感知系統(tǒng)
2.2語音信號生成的數(shù)學(xué)模型
2.3語音基本概念與參數(shù)
2.4語音信號的數(shù)字化和預(yù)處理
2.5語音信號處理的應(yīng)用
2.6思考與復(fù)習(xí)題
第3章語音信號處理的常用算法
3.1矢量量化
3.2隱馬爾可夫模型
3.3深度學(xué)習(xí)
3.4思考與復(fù)習(xí)題
第4章語音信號分析
4.1概述
4.2語音分幀
4.3語音信號的時域分析
4.4語音信號的頻域分析
4.5語音信號的倒譜分析
4.6語音信號的線性預(yù)測分析
4.7語音信號的小波分析
4.8思考與復(fù)習(xí)題
第5章語音信號特征提取技術(shù)
5.1概述
5.2端點檢測
5.3基音周期估計
5.4共振峰估計
5.5思考與復(fù)習(xí)題
第6章語音增強
6.1概述
6.2語音特性、人耳感知特性及噪聲特性
6.3濾波器法
6.4相關(guān)特征法
6.5非線性處理法
6.6減譜法與維納濾波法
6.7基于深度學(xué)習(xí)的語音增強
6.8思考與復(fù)習(xí)題
第7章語音識別
7.1概述
7.2語音識別原理和識別系統(tǒng)的組成
7.3孤立字(詞)識別系統(tǒng)
7.4連續(xù)語音識別系統(tǒng)
7.5語音識別系統(tǒng)的性能評測
7.6思考與復(fù)習(xí)題
第8章說話人識別
8.1概述
8.2說話人識別方法和系統(tǒng)結(jié)構(gòu)
8.3基于矢量量化的說話人識別系統(tǒng)
8.4基于動態(tài)時間規(guī)整的說話人確認系統(tǒng)
8.5基于高斯混合模型(GMM)的說話人識別系統(tǒng)
8.6基于深度學(xué)習(xí)的說話人識別
8.7尚需進一步探索的研究課題
8.8思考與復(fù)習(xí)題
第9章語音編碼
9.1概述
9.2語音編碼的評價指標
9.3語音信號的波形編碼
9.4語音信號的參數(shù)編碼
9.5語音信號的混合編碼
9.6基于深度學(xué)習(xí)的語音編碼
9.7思考與復(fù)習(xí)題
第10章語音合成與轉(zhuǎn)換
10.1概述
10.2語音合成算法
10.3基于深度學(xué)習(xí)的語音合成
10.4常用的語音轉(zhuǎn)換方法
10.5語音轉(zhuǎn)換的研究方向
10.6思考與復(fù)習(xí)題
第11章語音信號情感處理
11.1概述
11.2情感理論與情感誘發(fā)實驗
11.3情感的聲學(xué)特征分析
11.4實用語音情感識別算法
11.5基于深度學(xué)習(xí)的語音情感識別
11.6應(yīng)用與展望
11.7思考與復(fù)習(xí)題
第12章聲源定位
12.1概述
12.2雙耳聽覺定位原理及方法
12.4基于傳聲器陣列的聲源定位
12.5總結(jié)與展望
12.6思考與復(fù)習(xí)題
第13章多模態(tài)語音信號處理
13.1概述
13.2視覺信息輔助的語音增強
13.3視覺信息輔助的語音合成
13.4視覺信息輔助的語音識別
13.5多模態(tài)融合的語音情感信息處理
13.6總結(jié)與展望
13.7思考與復(fù)習(xí)題
附錄漢英名詞術(shù)語對照
參考文獻