智能語音處理

定　價(jià)：￥79.00

作　者：	張雄偉，孫蒙，楊吉斌著
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：	智能科學(xué)與技術(shù)叢書
標(biāo)　簽：	暫缺

購買這本書可以去

京東 (￥61.30)

ISBN：	9787111665328	出版時(shí)間：	2020-09-01	包裝：	平裝
開本：	16開	頁數(shù)：	248	字?jǐn)?shù)：

內(nèi)容簡介

　　本書系統(tǒng)性地闡述智能語音處理技術(shù)，并重點(diǎn)以機(jī)器學(xué)習(xí)等技術(shù)及其在語音處理中的典型應(yīng)用，理論與實(shí)踐聯(lián)系緊密。

作者簡介

　　本書編寫組主　編　張雄偉　孫　蒙　楊吉斌副主編　曹鐵勇　鄭昌艷　吳海佳參　編　曾　理　韓　偉　陳栩杉閔　剛　孫　健　孫新建周　彬　黃建軍　苗曉孔李嘉康　張星昱

圖書目錄

前言
第1章　智能語音處理導(dǎo)論1
　11　概述1
　12　經(jīng)典語音處理2
　　　121　語音處理的發(fā)展2
　　　122　語音基本表示方法3
　　　123　語音處理基本方法3
　　　124　經(jīng)典語音處理方法的不足4
　13　智能語音處理5
　　　131　智能語音處理的基本概念5
　　　132　智能語音處理的基本框架5
　　　133　智能語音處理的基本模型6
　14　語音處理的應(yīng)用7
　　　141　語音處理的傳統(tǒng)應(yīng)用領(lǐng)域8
　　　142　語音處理的新應(yīng)用領(lǐng)域11
　15　小結(jié)14
　參考文獻(xiàn)14
第2章　稀疏和壓縮感知15
　21　引言15
　22　稀疏和稀疏表示16
　　　221　稀疏16
　　　222　稀疏表示18
　23　冗余字典19
　　　231　基本概念19
　　　232　字典學(xué)習(xí)20
　　　233　字典學(xué)習(xí)算法22
　　　234　原子選擇算法25
　24　壓縮感知27
　　　241　基本概念27
　　　242　壓縮感知模型29
　　　243　觀測矩陣30
　　　244　信號重構(gòu)32
　25　小結(jié)33
　參考文獻(xiàn)33
第3章　隱變量模型36
　31　引言36
　32　高斯混合模型36
　　　321　基本概念37
　　　322　GMM參數(shù)估計(jì)37
　33　隱馬爾可夫模型39
　　　331　基本概念39
　　　332　HMM關(guān)鍵問題42
　34　高斯過程隱變量模型48
　　　341　基本模型48
　　　342　GPLVM的理論來源49
　　　343　GPLVM模型訓(xùn)練50
　35　小結(jié)51
　參考文獻(xiàn)51
第4章　組合模型52
　41　引言52
　42　主成分分析53
　　　421　基本模型53
　　　422　求解算法54
　43　非負(fù)矩陣分解56
　　　431　基本模型56
　　　432　求解算法57
　　　433　NMF與其他數(shù)據(jù)表示模型的關(guān)系58
　44　魯棒組合模型60
　　　441　組合模型的魯棒性分析61
　　　442　魯棒主成分分析61
　　　443　魯棒非負(fù)矩陣分解63
　45　小結(jié)64
　參考文獻(xiàn)64
第5章　人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)65
　51　引言65
　52　神經(jīng)網(wǎng)絡(luò)基礎(chǔ)66
　　　521　神經(jīng)元模型66
　　　522　淺層神經(jīng)網(wǎng)絡(luò)67
　　　523　深度神經(jīng)網(wǎng)絡(luò)68
　53　深度學(xué)習(xí)69
　　　531　基本概念和形式69
　　　532　深度網(wǎng)絡(luò)的學(xué)習(xí)方法70
　54　深度神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu)71
　　　541　深度置信網(wǎng)絡(luò)71
　　　542　自動編碼器與棧式自動編碼器72
　　　543　卷積神經(jīng)網(wǎng)絡(luò)74
　　　544　循環(huán)神經(jīng)網(wǎng)絡(luò)75
　　　545　生成式對抗網(wǎng)絡(luò)77
　55　小結(jié)79
　參考文獻(xiàn)79
第6章　語音壓縮編碼81
　61　引言81
　62　基于字典學(xué)習(xí)的語音信號壓縮感知82
　　　621　語音信號的稀疏性82
　　　622　語音在常見變換域的稀疏化83
　　　623　基于K-L展開的語音非相干字典84
　　　624　基于K-L非相干字典的語音壓縮重構(gòu)87
　　　625　實(shí)驗(yàn)仿真與性能分析88
　63　基于梅爾倒譜系數(shù)重構(gòu)的語音壓縮編碼93
　　　631　基于梅爾倒譜分析的抗噪語音編碼模型94
　　　632　基于稀疏約束的梅爾倒譜合成96
　　　633　梅爾倒譜系數(shù)的量化算法99
　　　634　實(shí)驗(yàn)仿真與性能分析103
　64　基于深度學(xué)習(xí)的語音壓縮編碼107
　　　641　基于DAE的幅度譜編碼和量化107
　　　642　基于DAE的低速率語音編碼110
　　　643　實(shí)驗(yàn)仿真與性能分析111
　65　小結(jié)113
　參考文獻(xiàn)113
第7章　語音增強(qiáng)115
　71　引言115
　72　語音增強(qiáng)技術(shù)基礎(chǔ)116
　　　721　語音增強(qiáng)的估計(jì)參數(shù)116
　　　722　智能語音增強(qiáng)的語音特征117
　　　723　性能評價(jià)118
　73　基于非負(fù)矩陣分解的語音增強(qiáng)120
　　　731　基本模型121
　　　732　基于不相交約束非負(fù)矩陣分解的語音增強(qiáng)122
　　　733　基于CNMF字典學(xué)習(xí)的語音增強(qiáng)127
　74　基于深度學(xué)習(xí)的語音增強(qiáng)136
　　　741　基于聽覺感知加權(quán)的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法136
　　　742　基于聽覺感知掩蔽的深度神經(jīng)網(wǎng)絡(luò)語音增強(qiáng)方法141
　75　小結(jié)151
　參考文獻(xiàn)152
第8章　語音轉(zhuǎn)換155
　81　引言155
　82　語音轉(zhuǎn)換基本原理155
　83　語音轉(zhuǎn)換模型與評價(jià)156
　　　831　語音分析/合成模型156
　　　832　語音參數(shù)的選擇157
　　　833　時(shí)間對齊157
　　　834　轉(zhuǎn)換模型和規(guī)則158
　　　835　轉(zhuǎn)換性能評價(jià)159
　84　基于非負(fù)矩陣分解的譜轉(zhuǎn)換160
　　　841　概述160
　　　842　基于卷積非負(fù)矩陣分解的譜轉(zhuǎn)換161
　　　843　聲道譜轉(zhuǎn)換效果164
　85　基于深度神經(jīng)網(wǎng)絡(luò)的譜轉(zhuǎn)換168
　　　851　深度學(xué)習(xí)驅(qū)動下的語音轉(zhuǎn)換168
　　　852　面向譜轉(zhuǎn)換的神經(jīng)網(wǎng)絡(luò)模型選擇168
　　　853　基于BLSTM和神經(jīng)網(wǎng)絡(luò)聲碼器交替訓(xùn)練的語音轉(zhuǎn)換171
　86　小結(jié)176
　參考文獻(xiàn)176
第9章　說話人識別178
　91　引言178
　92　說話人識別基礎(chǔ)179
　　　921　說話人識別系統(tǒng)框架179
　　　922　典型的說話人識別模型180
　93　基于i-vector的說話人識別及其改進(jìn)181
　　　931　基于i-vector的說話人識別概述181
　　　932　用于提高i-vector魯棒性的幀加權(quán)方法182
　　　933　實(shí)驗(yàn)結(jié)果與分析187
　94　基于深度神經(jīng)網(wǎng)絡(luò)的說話人識別187
　　　941　基于深度神經(jīng)網(wǎng)絡(luò)的說話人識別概述187
　　　942　基于對比度損失函數(shù)優(yōu)化說話人矢量189
　　　943　實(shí)驗(yàn)結(jié)果與分析191
　95　說話人識別系統(tǒng)的攻擊與防御192
　　　951　攻擊和防御的背景192
　　　952　說話人識別系統(tǒng)的攻擊方法192
　　　953　說話人識別攻擊的檢測方法194
　　　954　實(shí)驗(yàn)結(jié)果與分析196
　96　小結(jié)196
　參考文獻(xiàn)197
第10章　骨導(dǎo)語音增強(qiáng)200
　101　引言200
　102　骨導(dǎo)語音增強(qiáng)基礎(chǔ)201
　　　　1021　骨導(dǎo)語音的產(chǎn)生與特性201
　　　　1022　骨導(dǎo)語音盲增強(qiáng)的特點(diǎn)202
　　　　1023　骨導(dǎo)語音盲增強(qiáng)的典型方法203
　103　基于長短時(shí)記憶網(wǎng)絡(luò)的骨導(dǎo)語音盲增強(qiáng)205
　　　　1031　骨導(dǎo)/氣導(dǎo)語音的譜映射206
　　　　1032　基于深度殘差BLSTM的骨導(dǎo)語音盲增強(qiáng)方法207
　　　　1033　實(shí)驗(yàn)仿真及性能分析211
　104　基于均衡-生成組合譜映射的骨導(dǎo)語音盲增強(qiáng)215
　　　　1041　均衡法215
　　　　1042　基于均衡-生成組合譜映射的骨導(dǎo)語音盲增強(qiáng)方法216
　　　　1043　實(shí)驗(yàn)仿真及性能分析218
　105　小結(jié)222
　參考文獻(xiàn)223
第11章　智能語音處理展望224
　111　智能語音處理的未來224
　112　有待解決的關(guān)鍵技術(shù)225
　　　　1121　語音識別226
　　　　1122　語音合成228
　　　　1123　語音增強(qiáng)229
　　　　1124　語音處理中的安全問題230
　113　小結(jié)230
　參考文獻(xiàn)230
縮略語232