本書是根據(jù)作者在音頻降噪領(lǐng)域的研究成果而著,全書共分為10章,主要內(nèi)容包括緒論、基于高斯混合模型的非監(jiān)督在線建模噪聲功率譜估計(jì)、結(jié)合優(yōu)化U-Net和殘差網(wǎng)絡(luò)的單通道語音增強(qiáng)算法、基于差分麥克風(fēng)陣列的變步長LMS語音增強(qiáng)算法、語音頻帶擴(kuò)展研究綜述、基于時(shí)間卷積神經(jīng)網(wǎng)絡(luò)的語音頻帶擴(kuò)展、基于編解碼器網(wǎng)絡(luò)的語音頻帶擴(kuò)展、基于時(shí)頻感知神經(jīng)網(wǎng)絡(luò)的語音頻帶擴(kuò)展、IMCRA-OMLSA噪聲動(dòng)態(tài)估計(jì)下的心音降噪、結(jié)合SVM和香農(nóng)能量的HSMM心音分割方法。
許春冬,男,博士,副教授,碩士生導(dǎo)師,江西理工大學(xué)人工智能系主任,江西省第四屆電子信息類教學(xué)指導(dǎo)委員會(huì)委員。主持和參與國家級(jí)項(xiàng)目5項(xiàng),主持省部級(jí)課題11項(xiàng),授權(quán)發(fā)明專利和軟件著作權(quán)各1件,公開發(fā)表核心以上學(xué)術(shù)論文30余篇。獲得省部級(jí)科研二等獎(jiǎng)勵(lì)1項(xiàng),地廳級(jí)科研獎(jiǎng)勵(lì)3項(xiàng),主持獲得學(xué)校教學(xué)成果獎(jiǎng)2項(xiàng)。
第1章 緒論 1
1.1 引言 1
1.2 語音增強(qiáng)基礎(chǔ) 2
1.2.1 模型描述 2
1.2.2 噪聲類型 2
1.2.3 語音質(zhì)量評(píng)價(jià)方法 3
1.3 傳統(tǒng)單通道語音增強(qiáng)技術(shù)發(fā)展 4
1.4 監(jiān)督性單通道語音增強(qiáng)技術(shù)發(fā)展 5
1.4.1 基于淺層模型的語音增強(qiáng)算法 6
1.4.2 基于深層模型的語音增強(qiáng)算法 6
1.5 本章小結(jié) 11
參考文獻(xiàn) 12
第2章 基于高斯混合模型的非監(jiān)督在線建模噪聲功率譜估計(jì) 18
2.1 引言 18
2.2 基于GMM的在線建模方法 18
2.3 基于極大似然的在線參數(shù)估計(jì) 19
2.4 基于MDL準(zhǔn)則的在線約束 21
2.5 聚類方法實(shí)現(xiàn) 22
2.6 實(shí)驗(yàn)設(shè)置與分析 23
2.6.1 實(shí)驗(yàn)設(shè)置 23
2.6.2 實(shí)驗(yàn)結(jié)果與分析 24
2.7 本章小結(jié) 26
參考文獻(xiàn) 27
第3章 結(jié)合優(yōu)化U-Net和殘差網(wǎng)絡(luò)的單通道語音增強(qiáng)算法 30
3.1 引言 30
3.2 Residual-U-Net語音增強(qiáng)方法 31
3.2.1 自編碼器結(jié)構(gòu) 31
3.2.2 U-Net網(wǎng)絡(luò)結(jié)構(gòu) 32
3.2.3 殘差網(wǎng)絡(luò) 33
3.2.4 Residual-U-Net網(wǎng)絡(luò) 34
3.3 實(shí)驗(yàn)設(shè)置與分析 35
3.3.1 數(shù)據(jù)集及參數(shù)設(shè)置 36
3.3.2 結(jié)果與分析 37
3.3.3 語譜圖比較 39
3.4 本章小結(jié) 40
參考文獻(xiàn) 40
第4章 基于差分麥克風(fēng)陣列的變步長LMS語音增強(qiáng)算法 42
4.1 引言 42
4.2 雙通道信號(hào)模型 43
4.3 算法描述 44
4.3.1 一階差分麥克風(fēng)陣列 44
4.3.2 變步長頻域LMS算法 45
4.4 實(shí)驗(yàn)設(shè)置與分析 46
4.5 本章小結(jié) 52
參考文獻(xiàn) 53
第5章 語音頻帶擴(kuò)展研究綜述 55
5.1 引言 55
5.2 源-濾波器模型 55
5.2.1 寬帶激勵(lì)信號(hào)生成 57
5.2.2 寬帶譜包絡(luò)估計(jì) 59
5.3 深度學(xué)習(xí)的端到端語音頻帶擴(kuò)展 63
5.3.1 全連接神經(jīng)網(wǎng)絡(luò) 64
5.3.2 基于全連接神經(jīng)網(wǎng)絡(luò)的語音頻帶擴(kuò)展 66
5.4 基于卷積神經(jīng)網(wǎng)絡(luò)的語音頻帶擴(kuò)展 66
5.5 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語音頻帶擴(kuò)展 68
5.6 基于時(shí)頻神經(jīng)網(wǎng)絡(luò)的語音頻帶擴(kuò)展 71
5.7 數(shù)據(jù)預(yù)處理方式及窄帶語音特性 74
5.7.1 窄帶語音產(chǎn)生原因 74
5.7.2 時(shí)域預(yù)處理方法 75
5.7.3 頻域預(yù)處理方法 75
5.8 仿真與分析 78
5.8.1 客觀評(píng)價(jià) 78
5.8.2 主觀評(píng)價(jià) 80
5.8.3 語譜圖 81
5.9 本章小結(jié) 81
參考文獻(xiàn) 82
第6章 基于時(shí)間卷積神經(jīng)網(wǎng)絡(luò)的語音頻帶擴(kuò)展 89
6.1 時(shí)間卷積網(wǎng)絡(luò)結(jié)構(gòu) 89
6.1.1 擴(kuò)張因果卷積 89
6.1.2 時(shí)間卷積網(wǎng)絡(luò) 91
6.2 基于TCN的語音頻帶擴(kuò)展 93
6.2.1 模型架構(gòu) 93
6.2.2 時(shí)頻損失 95
6.3 實(shí)驗(yàn)設(shè)置與分析 96
6.3.1 實(shí)驗(yàn)設(shè)置 96
6.3.2 實(shí)驗(yàn)結(jié)果與分析 97
6.4 本章小結(jié) 100
參考文獻(xiàn) 100
第7章 基于編解碼器網(wǎng)絡(luò)的語音頻帶擴(kuò)展 103
7.1 編解碼器網(wǎng)絡(luò)模型 103
7.2 時(shí)頻感知損失函數(shù) 105
7.3 實(shí)驗(yàn)設(shè)置與分析 106
7.3.1 實(shí)驗(yàn)設(shè)置 106
7.3.2 語譜圖 107
7.3.3 客觀評(píng)價(jià) 107
7.3.4 主觀評(píng)價(jià) 108
7.4 本章小結(jié) 109
參考文獻(xiàn) 109
第8章 基于時(shí)頻感知神經(jīng)網(wǎng)絡(luò)的語音頻帶擴(kuò)展 111
8.1 編解碼器注意力模型 112
8.1.1 編碼器結(jié)構(gòu) 113
8.1.2 局部敏感哈希自注意力層 113
8.1.3 解碼器結(jié)構(gòu) 114
8.2 深度時(shí)頻感知損失函數(shù) 115
8.3 實(shí)驗(yàn)設(shè)置與分析 115
8.3.1 實(shí)驗(yàn)設(shè)置 115
8.3.2 語譜圖 116
8.3.3 客觀評(píng)價(jià) 117
8.3.4 主觀評(píng)價(jià) 118
8.4 消融對(duì)比實(shí)驗(yàn) 119
8.5 本章小結(jié) 121
參考文獻(xiàn) 121
第9章 IMCRA-OMLSA噪聲動(dòng)態(tài)估計(jì)下的心音降噪 124
9.1 引言 124
9.2 算法框架 125
9.3 基于IMCRA-OMLSA的心音降噪 126
9.3.1 基于OMLSA的心音降噪 126
9.3.2 基于IMCRA的噪聲估計(jì) 128
9.4 降噪結(jié)果的定性分析 131
9.5 降噪結(jié)果的定量評(píng)估 134
9.5.1 數(shù)據(jù)集與特征提取 135
9.5.2 分類器構(gòu)建 135
9.5.3 評(píng)估結(jié)果及分析 136
9.6 本章小結(jié) 138
參考文獻(xiàn) 138
第10章 結(jié)合SVM和香農(nóng)能量的HSMM心音分割方法 142
10.1 引言 142
10.2 分割的原理與方法 143
10.2.1 預(yù)處理 143
10.2.2 LR-HSMM 144
10.2.3 歸一化香農(nóng)能量 146
10.2.4 支持向量機(jī)(SVM) 147
10.2.5 心音持續(xù)時(shí)間分布 148
10.2.6 Viterbi解碼 148
10.3 分割算法流程 149
10.4 訓(xùn)練與評(píng)價(jià)指標(biāo) 149
10.4.1 數(shù)據(jù)集 149
10.4.2 訓(xùn)練集 150
10.4.3 模型評(píng)估 150
10.5 實(shí)驗(yàn)設(shè)置與分析 151
10.5.1 實(shí)驗(yàn)結(jié)果 151
10.5.2 性能指標(biāo)對(duì)比 152
10.6 本章小結(jié) 154
參考文獻(xiàn) 154
主要符號(hào)縮寫 156