聽(tīng)覺(jué)信息處理技術(shù)的創(chuàng)新能夠推動(dòng)實(shí)現(xiàn)高度智能化機(jī)器感知系統(tǒng)的發(fā)展,本分冊(cè)主要介紹了國(guó)內(nèi)外聽(tīng)覺(jué)信息處理方面的研究現(xiàn)狀和階段性成果,通過(guò)對(duì)人類言語(yǔ)產(chǎn)生與聽(tīng)覺(jué)機(jī)理,聽(tīng)覺(jué)機(jī)理的計(jì)算理論與方法,語(yǔ)音信號(hào)處理,語(yǔ)音識(shí)別聲學(xué)建模,特殊場(chǎng)景語(yǔ)音識(shí)別,聲紋與語(yǔ)種識(shí)別,韻律、情緒及音樂(lè)分析,統(tǒng)計(jì)語(yǔ)音合成,口語(yǔ)對(duì)話系統(tǒng)等技術(shù)研究成果的闡述與分析,展示我國(guó)在這些研究領(lǐng)域的優(yōu)勢(shì)與特色,并提出未來(lái)的技術(shù)挑戰(zhàn)與發(fā)展方向。
人類的語(yǔ)言主要有兩種承載形式:連續(xù)信號(hào)的有聲語(yǔ)言和離散信號(hào)的文本語(yǔ)言,其中有聲語(yǔ)言至今已有五萬(wàn)年的歷史,而文本語(yǔ)言至今已有四千多年的歷史。文本語(yǔ)言是對(duì)有聲語(yǔ)言運(yùn)用規(guī)則的總結(jié)和符號(hào)化的記錄,反過(guò)來(lái)講,它對(duì)有聲語(yǔ)言的習(xí)得和使用也起到了一定的指導(dǎo)作用。從本質(zhì)上看,有聲語(yǔ)言是經(jīng)過(guò)符號(hào)化語(yǔ)言信息的調(diào)制、承載說(shuō)話人意圖信息和生物信息的聲信學(xué)號(hào),而聽(tīng)覺(jué)是人類感知有聲語(yǔ)言、解析和理解其承載信息的主要手段。在會(huì)話交流的聽(tīng)覺(jué)信息處理過(guò)程中,人們從感知到的聲學(xué)信號(hào)中解調(diào)語(yǔ)音承載的語(yǔ)言信息、副語(yǔ)言信息和非語(yǔ)言信息信息,對(duì)所關(guān)注的信息進(jìn)行加工處理。從科學(xué)研究的角度看,此處理過(guò)程涉及語(yǔ)音聲學(xué)信號(hào)的處理、環(huán)境噪聲的處理、語(yǔ)音識(shí)別、語(yǔ)音合成、說(shuō)話人識(shí)別、言語(yǔ)韻律處理以及對(duì)話理解等多個(gè)研究領(lǐng)域。對(duì)于將有聲語(yǔ)言作為物理聲學(xué)信號(hào)進(jìn)行處理的研究領(lǐng)域,通常稱之為“語(yǔ)音”,而對(duì)于將有聲語(yǔ)言作為語(yǔ)言信息載體的研究領(lǐng)域,則稱之為“言語(yǔ)”。
人類的言語(yǔ)產(chǎn)生功能和言語(yǔ)感知功能在其成長(zhǎng)過(guò)程中共同進(jìn)化、共同發(fā)育,在大腦中形成“聽(tīng)、說(shuō)、讀”多位一體的多模態(tài)言語(yǔ)鏈。從1791年馮·肯佩倫(von Kempelen)發(fā)明了第1臺(tái)高度仿真人類發(fā)音機(jī)制的機(jī)械語(yǔ)音合成器(稱為“說(shuō)話機(jī)器”)至今已有230年,從1950年貝爾實(shí)驗(yàn)室構(gòu)建了最早的語(yǔ)音識(shí)別系統(tǒng)至今已有70年。其間,人們一直遵循語(yǔ)音產(chǎn)生和感知機(jī)理對(duì)語(yǔ)音信號(hào)處理的原理和方法進(jìn)行探究,即如何基于人的語(yǔ)音產(chǎn)生機(jī)理來(lái)解碼聲道特性和聲源特性、如何基于人的聽(tīng)覺(jué)感知機(jī)理去挖掘語(yǔ)音的物理聲學(xué)特征。本書本著“溫故而知新”的原則,在介紹語(yǔ)音產(chǎn)生和感知機(jī)理的同時(shí),對(duì)傳統(tǒng)的語(yǔ)音處理技術(shù)和方法進(jìn)行了簡(jiǎn)單的歸納與回顧,希望通過(guò)“重溫”這些原理性的語(yǔ)音技術(shù)能夠啟迪讀者的靈感,對(duì)于深入理解聽(tīng)覺(jué)信息處理的前沿技術(shù)有所幫助。
近年來(lái),隨著基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法的迅速發(fā)展和計(jì)算機(jī)算力的大幅度提升,在理想環(huán)境下從語(yǔ)音信息到文字轉(zhuǎn)寫的能力已經(jīng)與人類的水平相當(dāng)。本書在簡(jiǎn)要回顧過(guò)往成功算法的基礎(chǔ)上,首先針對(duì)包括各種加性噪聲、混響噪聲以及線路回聲等復(fù)雜噪聲環(huán)境,探討了語(yǔ)音增強(qiáng)的主觀和客觀評(píng)價(jià)方法、單聲道語(yǔ)音增強(qiáng)方法以及近年來(lái)蓬勃發(fā)展的基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法和基于麥克風(fēng)陣列的語(yǔ)音增強(qiáng)前沿技術(shù);在回顧基于隱馬爾可夫模型的經(jīng)典聲學(xué)建模方法的同時(shí),探討了結(jié)合深度學(xué)習(xí)的聲學(xué)建模方法以及端到端的聲學(xué)建模方法;從語(yǔ)音的魯棒性特征人手,探討了魯棒語(yǔ)音識(shí)別的前端處理方法以及環(huán)境表達(dá)與聲學(xué)模型的自適應(yīng)方法、參數(shù)結(jié)構(gòu)化自適應(yīng)及自適應(yīng)訓(xùn)練、多語(yǔ)種聲學(xué)與語(yǔ)言建模、低資源小語(yǔ)種的語(yǔ)言模型建模等技術(shù)。
言語(yǔ)包含了語(yǔ)言信息、副語(yǔ)言信息和非語(yǔ)言信息。說(shuō)話人的性別、年齡、嗓音、病理以及生理狀態(tài)等信息雖然都屬于非語(yǔ)言信息。但是這些反映說(shuō)話人特征的信息在言語(yǔ)交互和其他社會(huì)活動(dòng)中起著不可或缺的作用。在說(shuō)話人識(shí)別方面,本書重點(diǎn)介紹了基于深度學(xué)習(xí)的遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)及多數(shù)據(jù)庫(kù)聯(lián)合學(xué)習(xí)等方法;在聲紋識(shí)別方面,本書介紹了說(shuō)話人特征提取的方法,并著重介紹了時(shí)變魯棒聲紋識(shí)別、短語(yǔ)音聲紋識(shí)別和防聲紋假冒闖入對(duì)策以及基于深度學(xué)習(xí)的聲紋識(shí)別算法。
言語(yǔ)的韻律超出了語(yǔ)音信號(hào)本身的范疇,它一方面是交際雙方的生理、心理和信息處理能力的體現(xiàn),另一方面也是交際雙方社會(huì)屬性的體現(xiàn)。言語(yǔ)韻律的分析與建模涉及情感語(yǔ)音識(shí)別、語(yǔ)音合成以及對(duì)話理解等領(lǐng)域,本書從漢語(yǔ)的特征出發(fā),介紹了韻律標(biāo)注系統(tǒng)的構(gòu)建,韻律分析與建模以及漢語(yǔ)韻律研究的挑戰(zhàn)問(wèn)題。同時(shí)介紹了情感語(yǔ)音聲學(xué)特征的分析方法,語(yǔ)音的情感分類與識(shí)別以及情感語(yǔ)音合成等方面的技術(shù)和最新成果。
在人機(jī)融合的智能社會(huì)中,語(yǔ)音合成是實(shí)現(xiàn)人機(jī)自然對(duì)話的主要途徑之一。當(dāng)今,語(yǔ)音合成技術(shù)已經(jīng)融入智能手機(jī)、智能家電等設(shè)備,服務(wù)于有聲讀物、信息查詢與發(fā)布系統(tǒng)、辦公自動(dòng)化系統(tǒng)、虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)等諸多領(lǐng)域。盡管如此,這種技術(shù)尚有“不盡人意”的地方。為了聚焦其挑戰(zhàn)性問(wèn)題,本書首先回顧了基于隱馬爾可夫模型的統(tǒng)計(jì)語(yǔ)音合成方法,介紹了其關(guān)鍵技術(shù)以及該語(yǔ)音合成方法的優(yōu)缺點(diǎn);然后重點(diǎn)介紹了結(jié)合深度學(xué)習(xí)的統(tǒng)計(jì)語(yǔ)音合成方法的關(guān)鍵技術(shù)包括基于深度學(xué)習(xí)的聲學(xué)建模方法、基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成前端處理、基于深度學(xué)習(xí)的韻律邊界預(yù)測(cè)以及神經(jīng)網(wǎng)絡(luò)波形生成模型的構(gòu)建;最后介紹了基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成端到端建模方法的前沿技術(shù)。
言語(yǔ)理解是語(yǔ)音技術(shù)真正融人人類生活的“最后1公里”。本書在介紹了言語(yǔ)對(duì)話理解基本概念的基礎(chǔ)上,首先討論了言語(yǔ)理解算法的前沿技術(shù),其中包括口語(yǔ)理解中的不確定性建模,上下文建模及領(lǐng)域自適應(yīng)技術(shù);然后概述了人機(jī)口語(yǔ)對(duì)話系統(tǒng).介紹了任務(wù)型人機(jī)口語(yǔ)對(duì)話系統(tǒng)的基本架構(gòu)與對(duì)話系統(tǒng)的性能評(píng)估問(wèn)題,探討了對(duì)話狀態(tài)跟蹤的前沿技術(shù)及其挑戰(zhàn),通過(guò)有代表性的模型進(jìn)行了詳細(xì)解說(shuō);最后介紹了最新的端到端的DST模型以及多領(lǐng)域DST模型,探討了對(duì)話策略優(yōu)化、深度強(qiáng)化學(xué)習(xí)在對(duì)話策略訓(xùn)練中的應(yīng)用以及對(duì)話策略優(yōu)化訓(xùn)練中的前沿技術(shù)。
廣大科研人員希望日益深人人心的語(yǔ)音技術(shù)不僅能為人們的日常生活錦上添花,更應(yīng)當(dāng)為聽(tīng)力殘障人士雪中送炭,提高和改善他們的生活質(zhì)量。為此,本書詳細(xì)地介紹了面向健康醫(yī)療的語(yǔ)音技術(shù)。由于大部分言語(yǔ)障礙和聽(tīng)覺(jué)障礙是由發(fā)音/聽(tīng)覺(jué)器官的殘疾或相關(guān)腦功能受損而引起的,本書在第1章和第9章對(duì)發(fā)音/聽(tīng)覺(jué)器官構(gòu)造和機(jī)理從不同的側(cè)面進(jìn)行了闡述,對(duì)言語(yǔ)處理的腦神經(jīng)機(jī)理及其前沿研究進(jìn)行了介紹。此外還重點(diǎn)介紹了聽(tīng)障評(píng)估與助聽(tīng)技術(shù)的前沿研究、嗓音障礙產(chǎn)生機(jī)制與客觀評(píng)估技術(shù)以及言語(yǔ)康復(fù)訓(xùn)練與學(xué)習(xí)相關(guān)的前沿技術(shù)及其研究。
本書從語(yǔ)音信號(hào)處理的角度全面地闡述了聽(tīng)覺(jué)信息處理的前沿技術(shù)與挑戰(zhàn)性問(wèn)題。本書的各位編者都是各相關(guān)領(lǐng)域的一線專家,其中的很多技術(shù)成果是他們及其團(tuán)隊(duì)多年來(lái)為我國(guó)在該領(lǐng)域研究做出的貢獻(xiàn)。本書可以為聽(tīng)覺(jué)信息處理及相關(guān)領(lǐng)域的專家、工程技術(shù)人員以及對(duì)語(yǔ)音領(lǐng)域感興趣的廣大教師和學(xué)生提供學(xué)術(shù)參考。
1 言語(yǔ)產(chǎn)生和聽(tīng)覺(jué)的機(jī)理及其研究
1.1 言語(yǔ)產(chǎn)生和感知的機(jī)理
1.1.1 有聲語(yǔ)言產(chǎn)生的條件
1.1.2 語(yǔ)音產(chǎn)生的機(jī)理
1.1.3 語(yǔ)音感知的機(jī)理
1.2 聲源的產(chǎn)生與聲道的調(diào)制
1.2.1 聲源產(chǎn)生機(jī)理與感知
1.2.2 聲道的調(diào)制機(jī)理
1.3 言語(yǔ)產(chǎn)生與感知的相互作用
1.3.1 言語(yǔ)鏈
1.3.2 言語(yǔ)感知運(yùn)動(dòng)理論
1.3.3 言語(yǔ)感知機(jī)理研究的發(fā)展與挑戰(zhàn)
1.3.4 鏡像神經(jīng)元和言語(yǔ)聽(tīng)覺(jué)一運(yùn)動(dòng)整合
1.4 言語(yǔ)的腦功能研究
1.4.1 言語(yǔ)的腦認(rèn)知研究發(fā)展
1.4.2 言語(yǔ)的認(rèn)知神經(jīng)機(jī)理
1.4.3 言語(yǔ)功能障礙及康復(fù)訓(xùn)練
1.5 語(yǔ)音信號(hào)處理方法簡(jiǎn)介
1.5.1 基于產(chǎn)生機(jī)理的信號(hào)處理方法
1.5.2 基于感知機(jī)理的信號(hào)處理方法
參考文獻(xiàn)
2 語(yǔ)音增強(qiáng)與麥克風(fēng)陣列信號(hào)處理
2.1 信號(hào)模型
2.1.1 時(shí)域信號(hào)模型
2.1.2 頻域信號(hào)模型與短時(shí)傅里葉變換技術(shù)
2.2 評(píng)價(jià)方法
2.2.1 主觀評(píng)價(jià)方法與指標(biāo)
2.2.2 客觀評(píng)價(jià)方法與指標(biāo)
2.3 單聲道語(yǔ)音增強(qiáng)
2.3.1 時(shí)域維納濾波器增強(qiáng)原理
2.3.2 頻域維納濾波器增強(qiáng)原理
2.3.3 噪聲功率譜的估計(jì)
2.3.4 基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)
2.4 麥克風(fēng)陣列語(yǔ)音增強(qiáng)
2.4.1 固定波束
2.4.2 自適應(yīng)波束
2.4.3 后置濾波技術(shù)
參考文獻(xiàn)
3 語(yǔ)音識(shí)別聲學(xué)建模
3.1 統(tǒng)計(jì)語(yǔ)音識(shí)別概述
3.2 基于隱馬爾可夫模型的經(jīng)典聲學(xué)建模方法
3.2.1 HMM
3.2.2 GMM-HMM在語(yǔ)音識(shí)別中的使用
3.2.3 模型改進(jìn)及問(wèn)題分析
3.2.4 自適應(yīng)技術(shù)
3.2.5 鑒別性訓(xùn)練技術(shù)
3.3 結(jié)合深度學(xué)習(xí)的聲學(xué)建模方法
3.3.1 深度學(xué)習(xí)基礎(chǔ)
3.3.2 CD-DNN-HMM混合建模
3.3.3 深度學(xué)習(xí)在聲學(xué)建模中的綜合應(yīng)用
3.3.4 深度學(xué)習(xí)訓(xùn)練加速
3.3.5 深度學(xué)習(xí)自適應(yīng)技術(shù)
3.3.6 深度學(xué)習(xí)框架下的序列鑒別性訓(xùn)練
3.3.7 端到端聲學(xué)建模
參考文獻(xiàn)
……
4 特殊場(chǎng)景語(yǔ)音識(shí)別(抗噪、低資源)
5 聲紋識(shí)別與語(yǔ)種識(shí)別
6 韻律、情緒及音樂(lè)分析
7 統(tǒng)計(jì)語(yǔ)音合成
8 人機(jī)口語(yǔ)對(duì)話系統(tǒng)
9 面向健康醫(yī)療的語(yǔ)音技術(shù)
索引