《語音信號識別技術(shù)與實踐》內(nèi)容分為8章。第1章為語音識別技術(shù)概述,介紹了語音識別技術(shù)的原理和發(fā)展與應用。第2章為語音信號處理基本技術(shù),包括數(shù)字化預處理、短時時域處理和頻域處理的內(nèi)容。第3章是語音信號的端點檢測和分割,介紹了端點檢測的原理和常規(guī)檢測方法,提出了基于復雜背景條件下的端點檢測算法,包括算法流程和實驗方法。第4章是語音分割聚類,研究了如何獲取一段多人對話語音中說話人身份變動的信息,以及如何確定哪些語音段是由同一個人發(fā)出來的。詳細介紹了三種方法,包括基于混合特征的分割聚類方法、基于改進雙門限端點檢測的分割法、基于自組織神經(jīng)網(wǎng)絡的改進K-means聚類算法。第5章為基于神經(jīng)網(wǎng)絡的語音識別,詳述了基于自適應免疫克隆神經(jīng)網(wǎng)絡的語音識別算法原理、流程和實驗方法。第6章是偽裝語音識別,探討了在語音被采用偽裝手段(如在耳語、假聲、模仿他人講話、捏鼻子講話以及用手絹或口罩等物品捂嘴講話等)情況下,如何正確進行語音鑒定的問題。提出了基于GFCC與共振峰的聲紋提取方法和基于深度置信網(wǎng)絡模型的聲紋提取方法。第7章是基于語音信號的心理壓力分級與識別,探討了反映心理壓力的生理信號和分級實驗方法,以及基于語音信號的心理壓力識別方法。第8章是不同情感的語音聲學特征分析,通過對生氣、害怕、高興、中性、驚訝、悲傷六種情感語音的共振峰頻率特征、共振峰走向特征、音節(jié)間的過渡特征、音節(jié)內(nèi)的過渡特征、基頻曲線特征以及振幅曲線特征進行語音聲學特征分析,探索了同一個人的語音在不同情感下表現(xiàn)的特征差異。
《語音信號識別技術(shù)與實踐》較全面地總結(jié)了課題組近年來關(guān)于語音識別、語音與心理壓力等級識別、語音與情感分析方面的研究內(nèi)容。主要章節(jié)均以理論介紹、算法流程、實驗步驟、結(jié)果分析為脈絡撰寫,內(nèi)容詳盡,循序漸進,適合語音識別及語音情感分析的初學者,希望為在此領(lǐng)域有求知欲的學子打開一扇探索之門。
第1章 語音識別技術(shù)概述
1.1 語音識別的基本原理
1.2 語音識別技術(shù)的發(fā)展
1.3 語音識別技術(shù)的應用
1.4 本章小結(jié)
第2章 語音信號處理基本技術(shù)
2.1 語音信號的數(shù)字化預處理
2.1.1 預濾波
2.1.2 采樣與量化
2.1.3 語音信號的A/D轉(zhuǎn)化
2.1.4 預加重
2.1.5 分幀處理
2.1.6 加窗處理
2.2 語音信號的短時時域處理
2.2.1 短時能量
2.2.2 短時過零率
2.3 語音信號的短時頻域處理
2.3.1 短時傅里葉變換
2.3.2 語譜圖
2.3.3 短時功率譜密度
2.4 本章小結(jié)
第3章 語音信號的端點檢測和分割
3.1 端點檢測的基本原理
3.2 語音端點檢測的常規(guī)方法
3.2.1 基于短時能量和過零率的語音端點檢測
3.2.2 基于自相關(guān)函數(shù)的語音端點檢測
3.2.3 基于小波變換的語音端點檢測
3.3 基于小波分析的語音端點檢測
3.3.1 小波變換的基本原理
3.3.2 基于小波變換的語音端點檢測
3.4 基于小波包和高階累積量的語音端點檢測
3.4.1 小波包變換
3.4.2 高階累積量理論
3.4.3 基于小波包和高階累積量的語音端點檢測算法設計
3.4.4 實驗分析
3.5 基于自適應門限的分形維數(shù)語音端點檢測
3.5.1 基于分形維數(shù)的端點檢測
3.5.2 基于自適應門限的分形維數(shù)端點檢測算法設計
3.6 本章小結(jié)
第4章 語音分割聚類
4.1 基于混合特征的說話人語音分割聚類
4.1.1 說話人語音分割聚類
4.1.2 基于混合特征的語音分割聚類算法設計
4.1.3 實驗驗證
4.2 基于改進雙門限端點檢測法的說話人語音分割
4.2.1 語音分割方法的選取
4.2.2 傳統(tǒng)雙門限端點檢測算法研究
4.2.3 雙門限端點檢測算法的改進設計
4.2.4 基于改進雙門限法的說話人語音分割步驟
4.2.5 實驗驗證
4.3 基于自組織神經(jīng)網(wǎng)絡的改進K-means說話人語音聚類
4.3.1 K-means說話人語音聚類算法
4.3.2 自組織神經(jīng)網(wǎng)絡說話人聚類算法設計
4.3.3 基于自組織神經(jīng)網(wǎng)絡的改進K-means說話人語音聚類算法設計
4.3.4 實驗驗證
4.4 本章小結(jié)
第5章 基于神經(jīng)網(wǎng)絡的語音識別
5.1 自適應免疫克隆算法和神經(jīng)網(wǎng)絡基礎知識
5.1.1 自適應免疫克隆算法
5.1.2 神經(jīng)元
5.1.3 網(wǎng)絡連接方式
5.1.4 學習(訓練)算法
5.1.5 BP神經(jīng)網(wǎng)絡
5.2 基于自適應免疫克隆神經(jīng)網(wǎng)絡的語音識別算法設計
5.3 實驗驗證
5.4 本章小結(jié)
第6章 偽裝語音識別
6.1 基礎知識
6.1.1 偽裝語音聲紋識別概述
6.1.2 深度學習概述
6.2 基于GFCC與共振峰的偽裝語音聲紋特征提取
6.2.1 倒譜法提取共振峰系數(shù)
6.2.2 GFCC參數(shù)的提取
6.2.3 高斯混合模型
6.2.4 基于混合參數(shù)的改進特征提取算法
6.2.5 實驗及結(jié)果分析
6.3 基于DBN模型的偽裝語音聲紋識別系統(tǒng)
6.3.1 深度置信網(wǎng)絡
6.3.2 基于DBN的改進模型算法
6.3.3 實驗及結(jié)果分析
6.4 本章小結(jié)
第7章 基于語音信號的心理壓力分級與識別
7.1 基于語音和生理信號的心理壓力分級
7.1.1 心理壓力多模態(tài)參數(shù)影響分析
7.1.2 心理壓力等級識別分析
7.1.3 基于語音信號的心理壓力等級識別驗證
7.2 基于MFCC和GFCC混合特征的語音情感識別研究
7.2.1 基于混合特征的語音情感特征提取
7.2.2 基于CNN的語音情感識別
7.2.3 實驗分析
7.3 本章小結(jié)
第8章 不同情感的語音聲學特征分析
8.1 情感語音文本的選擇
8.2 情感語音聲學特征分析
8.2.1 共振峰頻率特征
8.2.2 共振峰走向特征
8.2.3 音節(jié)內(nèi)過渡特征
8.2.4 音節(jié)間過渡特征
8.2.5 基頻曲線特征
8.2.6 振幅曲線特征
8.3 情感語音聲學特征分析結(jié)果
8.4 本章小結(jié)
參考文獻