注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書教育/教材/教輔教材研究生/本科/??平滩?/a>現(xiàn)代語音信號處理理論與技術

現(xiàn)代語音信號處理理論與技術

現(xiàn)代語音信號處理理論與技術

定 價:¥99.80

作 者: 胡航
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787121455445 出版時間: 2023-05-01 包裝: 平裝
開本: 16開 頁數(shù): 字數(shù):  

內容簡介

  本書系統(tǒng)介紹了語音信號處理的基礎、原理、方法、應用、新理論、新成果與新技術、前沿領域及研究進展,以及背景知識、研究現(xiàn)狀、應用前景和發(fā)展趨勢。全書分三篇共18章。第一篇語音信號處理基礎,包括第1章緒論,第2章語音信號處理的基礎知識;第二篇語音信號分析,包括第3章時域分析,第4章短時傅里葉分析,第5章倒譜分析與同態(tài)濾波,第6章線性預測分析,第7章語音信號的非線性分析,第8章語音聲學參數(shù)檢測與估計,第9章矢量量化,第10章隱馬爾可夫模型;第三篇語音信號處理技術與應用,包括第11章語音編碼,第12章語音合成,第13章語音識別,第14章說話人識別和語種辨識,第15章智能信息處理技術在語音信號處理中的應用,第16章語音增強,第17章麥克風陣列語音信號處理,第18章語音信息對抗。本書體系完整,結構嚴謹,系統(tǒng)性強,原理闡述透徹,內容繁簡適中,豐富而新穎,聯(lián)系實際應用。本書可作為高等院校信號與信息處理、通信與電子工程、電路與系統(tǒng)、模式識別與人工智能等專業(yè)及學科高年級本科生及研究生的教材,也可供該領域的科研及工程技術人員參考。

作者簡介

  胡航,哈爾濱工業(yè)大學電子信息學院,副教授,主要從事信號處理方面的教學、科研工作,編著出版《語音信號處理》等教材多部,

圖書目錄

目 錄
第一篇 語音信號處理基礎

第1章 緒論 1
1.1 語音信號處理的發(fā)展歷史 1
1.2 語音信號處理的主要研究內容及
發(fā)展概況 3
1.3 本書的內容 7
思考與復習題 8
第2章 語音信號處理的基礎知識 9
2.1 概述 9
2.2 語音產(chǎn)生的過程 9
2.3 語音信號的特性 12
2.3.1 語言和語音的基本特性 12
2.3.2 語音信號的時間波形和頻譜特性 13
2.3.3 語音信號的統(tǒng)計特性 15
2.4 語音產(chǎn)生的線性模型 16
2.4.1 激勵模型 17
2.4.2 聲道模型 18
2.4.3 輻射模型 20
2.4.4 語音信號數(shù)字模型 20
2.5 語音產(chǎn)生的非線性模型 21
2.5.1 FM-AM模型的基本原理 22
2.5.2 Teager能量算子 22
2.5.3 能量分離算法 23
2.5.4 FM-AM模型的應用 24
2.6 語音感知 24
2.6.1 聽覺系統(tǒng) 24
2.6.2 神經(jīng)系統(tǒng) 25
2.6.3 語音感知 26
思考與復習題 29

第二篇 語音信號分析

第3章 時域分析 30
3.1 概述 30
3.2 數(shù)字化和預處理 31
3.2.1 取樣率和量化字長的選擇 31
3.2.2 預處理 33
3.3 短時能量分析 34
3.4 短時過零分析 36
3.5 短時相關分析 39
3.5.1 短時自相關函數(shù) 39
3.5.2 修正的短時自相關函數(shù) 40
3.5.3 短時平均幅差函數(shù) 41
3.6 語音端點檢測 42
3.6.1 雙門限前端檢測 43
3.6.2 多門限過零率前端檢測 43
3.6.3 基于FM-AM模型的端點檢測 43
3.7 基于高階累積量的語音端點檢測 44
3.7.1 噪聲環(huán)境下的端點檢測 44
3.7.2 高階累積量與高階譜 44
3.7.3 基于高階累積量的端點檢測 46
思考與復習題 48
第4章 短時傅里葉分析 50
4.1 概述 50
4.2 短時傅里葉變換 50
4.2.1 短時傅里葉變換的定義 50
4.2.2 傅里葉變換的解釋 51
4.2.3 濾波器的解釋 54
4.3 短時傅里葉變換的取樣率 55
4.4 語音信號的短時綜合 56
4.4.1 濾波器組求和法 56
4.4.2 FFT求和法 58
4.5 語譜圖 59
思考與復習題 61
第5章 倒譜分析與同態(tài)濾波 62
5.1 概述 62
5.2 同態(tài)信號處理的基本原理 62
5.3 復倒譜和倒譜 63
5.4 語音信號兩個卷積分量復倒譜的性質 64
5.4.1 聲門激勵信號 64
5.4.2 聲道沖激響應序列 65
5.5 避免相位卷繞的算法 66
5.5.1 微分法 67
5.5.2 最小相位信號法 67
5.5.3 遞推法 69
5.6 語音信號復倒譜分析實例 70
5.7 Mel頻率倒譜系數(shù) 72
思考與復習題 73
第6章 線性預測分析 74
6.1 概述 74
6.2 線性預測分析的基本原理 74
6.2.1 基本原理 74
6.2.2 語音信號的線性預測分析 75
6.3 線性預測方程組的建立 76
6.4 線性預測分析的解法(1)―自相關和
協(xié)方差法 77
6.4.1 自相關法 78
6.4.2 協(xié)方差法 79
6.4.3 自相關和協(xié)方差法的比較 80
6.5 線性預測分析的解法(2)―格型法 81
6.5.1 格型法基本原理 81
6.5.2 格型法的求解 83
6.6 線性預測分析的應用―LPC譜估計和
LPC復倒譜 85
6.6.1 LPC譜估計 85
6.6.2 LPC復倒譜 87
6.6.3 LPC譜估計與其他譜分析方法的
比較 88
6.7 線譜對(LSP)分析 89
6.7.1 線譜對分析原理 89
6.7.2 線譜對參數(shù)的求解 91
6.8 極零模型 91
思考與復習題 93
第7章 語音信號的非線性分析 94
7.1 概述 94
7.2 時頻分析 94
7.2.1 短時傅里葉變換的局限 95
7.2.2 時頻分析 96
7.3 小波分析 97
7.3.1 概述 97
7.3.2 小波變換的定義 97
7.3.3 典型的小波函數(shù) 99
7.3.4 離散小波變換 100
7.3.5 小波多分辨分析與Mallat算法 100
7.4 基于小波的語音分析 101
7.4.1 語音分解與重構 101
7.4.2 清/濁音判斷 102
7.4.3 語音去噪 102
7.4.4 聽覺系統(tǒng)模擬 103
7.4.5 小波包變換在語音端點檢測中的應用 103
7.5 混沌與分形 104
7.6 基于混沌的語音分析 105
7.6.1 語音信號的混沌性 105
7.6.2 語音信號的相空間重構 106
7.6.3 語音信號的Lyapunov指數(shù) 108
7.6.4 基于混沌的語音、噪聲判別 109
7.7 基于分形的語音分析 110
7.7.1 概述 110
7.7.2 語音信號的分形特征 110
7.7.3 基于分形的語音分割 111
7.8 壓縮感知 113
7.9 語音信號的壓縮感知 114
7.9.1 語音信號的稀疏性 114
7.9.2 語音壓縮感知的實現(xiàn) 114
7.9.3 需要進一步解決的問題 116
思考與復習題 117
第8章 語音聲學參數(shù)檢測與估計 118
8.1 基音估計 118
8.1.1 自相關法 119
8.1.2 并行處理法 121
8.1.3 倒譜法 122
8.1.4 簡化逆濾波法 124
8.1.5 高階累積量法 127
8.1.6 小波變換法 127
8.1.7 基音檢測的后處理 128
8.2 共振峰估計 129
8.2.1 帶通濾波器組法 129
8.2.2 DFT法 130
8.2.3 倒譜法 131
8.2.4 LPC法 133
8.2.5 FM-AM模型法 134
思考與復習題 135
第9章 矢量量化 136
9.1 概述 136
9.2 矢量量化的基本原理 137
9.3 失真測度 138
9.3.1 歐氏距離―均方誤差 139
9.3.2 LPC失真測度 139
9.3.3 識別失真測度 141
9.4 最佳矢量量化器和碼本的設計 141
9.4.1 矢量量化器最佳設計的兩個條件 141
9.4.2 LBG算法 142
9.4.3 初始碼書生成 142
9.5 降低復雜度的矢量量化系統(tǒng) 143
9.5.1 無記憶的矢量量化系統(tǒng) 144
9.5.2 有記憶的矢量量化系統(tǒng) 146
9.6 語音參數(shù)的矢量量化 148
9.7 智能信息處理在矢量量化中的應用策略 149
思考與復習題 150
第10章 隱馬爾可夫模型 151
10.1 概述 151
10.2 隱馬爾可夫模型的引入 152
10.3 隱馬爾可夫模型的定義 154
10.4 隱馬爾可夫模型三個問題的求解 155
10.4.1 概率的計算 156
10.4.2 HMM的識別 158
10.4.3 HMM的訓練 159
10.4.4 EM算法 160
10.5 HMM的選取 161
10.5.1 HMM的類型選擇 161
10.5.2 輸出概率分布的選取 162
10.5.3 狀態(tài)數(shù)的選取 162
10.5.4 初值選取 162
10.5.5 訓練準則的選取 164
10.6 HMM應用與實現(xiàn)中的一些問題 165
10.6.1 數(shù)據(jù)下溢 165
10.6.2 多輸出(觀察矢量序列)情況 165
10.6.3 訓練數(shù)據(jù)不足 166
10.6.4 考慮狀態(tài)持續(xù)時間的HMM 167
10.7 HMM的結構和類型 169
10.7.1 HMM的結構 169
10.7.2 HMM的類型 171
10.7.3 按輸出形式分類 172
10.8 HMM的相似度比較 173
思考與復習題 174

第三篇 語音信號處理技術與應用

第11章 語音編碼 175
11.1 概述 175
11.2 語音信號的壓縮編碼原理 177
11.2.1 語音壓縮的基本原理 177
11.2.2 語音通信中的語音質量 178
11.2.3 兩種壓縮編碼方式 179
11.3 語音信號的波形編碼 179
11.3.1 PCM及APCM 179
11.3.2 預測編碼及自適應預測編碼 182
11.3.3 ADPCM及ADM 184
11.3.4 子帶編碼(SBC) 186
11.3.5 自適應變換編碼(ATC) 188
11.4 聲碼器 190
11.4.1 概述 190
11.4.2 聲碼器的基本結構 191
11.4.3 通道聲碼器 191
11.4.4 同態(tài)聲碼器 193
11.5 LPC聲碼器 194
11.5.1 LPC參數(shù)的變換與量化 195
11.5.2 LPC-10 196
11.5.3 LPC-10e 197
11.5.4 變幀率LPC聲碼器 198
11.6 各種常規(guī)語音編碼方法的比較 198
11.6.1 波形編碼的信號壓縮技術 198
11.6.2 波形編碼與聲碼器的比較 199
11.6.3 各種聲碼器的比較 199
11.7 基于LPC模型的混合編碼 200
11.7.1 混合編碼采用的技術 201
11.7.2 MPLPC 203
11.7.3 RPELPC 206
11.7.4 CELP 207
11.7.5 CELP的改進形式 210
11.7.6 基于分形碼本的CELP 212
11.8 基于正弦模型的混合編碼 213
11.8.1 正弦變換編碼 214
11.8.2 多帶激勵(MBE)編碼 214
11.9 極低速率語音編碼 216
11.9.1 (400~1.2k)b/s數(shù)碼率的聲碼器 216
11.9.2 識別-合成型聲碼器 217
11.10 語音壓縮感知編碼 218
11.11 語音編碼的性能指標 219
11.12 語音編碼的質量評價 220
11.12.1 主觀評價方法 221
11.12.2 客觀評價方法 222
11.12.3 主客觀評價方法的結合 225
11.12.4 基于多重分形的語音質量評價 226
11.13 語音編碼國際標準 227
11.14 語音編碼與圖像編碼的關系 227
小結 228
思考與復習題 229
第12章 語音合成 230
12.1 概述 230
12.2 語音合成原理 231
12.2.1 語音合成的方法 231
12.2.2 語音合成的系統(tǒng)特性 233
12.3 共振峰合成 233
12.3.1 共振峰合成原理 233
12.3.2 共振峰合成實例 235
12.4 LPC合成 236
12.5 PSOLA語音合成 238
12.5.1 概述 238
12.5.2 PSOLA的原理 238
12.5.3 PSOLA的實現(xiàn) 239
12.5.4 PSOLA的改進 241
12.5.5 PSOLA語音合成系統(tǒng)的發(fā)展 241
12.6 文語轉換系統(tǒng) 242
12.6.1 組成與結構 242
12.6.2 文本分析 242
12.6.3 韻律控制 244
12.6.4 語音合成 246
12.6.5 TTS系統(tǒng)的一些問題 247
12.7 基于HMM的參數(shù)化語音合成 248
12.8 語音合成的發(fā)展趨勢 252
12.9 語音合成硬件簡介 253
思考與復習題 254
第13章 語音識別 255
13.1 概述 255
13.2 語音識別原理 258
13.3 動態(tài)時間規(guī)整 262
13.4 基于有限狀態(tài)矢量量化的語音識別 264
13.5 孤立詞識別系統(tǒng) 265
13.6 連接詞識別 268
13.6.1 基本原理 268
13.6.2 基于DTW的連接詞識別 269
13.6.3 基于HMM的連接詞識別 271
13.6.4 基于分段K-均值的最佳詞串
分割及模型訓練 271
13.7 連續(xù)語音識別 272
13.7.1 連續(xù)語音識別存在的困難 272
13.7.2 連續(xù)語音識別的訓練及識別方法 273
13.7.3 連續(xù)語音識別的整體模型 274
13.7.4 基于HMM統(tǒng)一框架的大詞匯
非特定人連續(xù)語音識別 275
13.7.5 聲學模型 276
13.7.6 語言學模型 278
13.7.7 最優(yōu)路徑搜索 280
13.8 魯棒的語音識別 282
13.9 分形語音識別 284
13.10 說話人自適應 285
13.10.1 MAP算法 285
13.10.2 基于變換的自適應方法 286
13.10.3 基于說話人分類的自適應方法 286
13.11 關鍵詞確認 287
13.12 可視語音識別 289
13.12.1 概述 289
13.12.2 機器自動唇讀 290
13.12.3 雙模語音識別 291
13.13 語音理解 294
13.13.1 MAP語義解碼 295
13.13.2 語義結構的表示 295
13.13.3 意圖解碼器 296
小結 297
思考與復習題 297
第14章 說話人識別和語種辨識 299
14.1 概述 299
14.2 特征選取 300
14.2.1 說話人識別所用的特征 300
14.2.2 特征類型的優(yōu)選準則 301
14.2.3 常用的特征參數(shù) 302
14.3 說話人識別系統(tǒng)的結構 302
14.4 說話人識別基本方法概述 303
14.5 說話人識別系統(tǒng)實例 304
14.5.1 DTW系統(tǒng) 304
14.5.2 VQ系統(tǒng) 305
14.6 基于HMM的說話人識別 306
14.7 基于GMM的說話人識別 309
14.8 需要進一步研究的問題 311
14.9 語種辨識 312
思考與復習題 315
第15章 智能信息處理技術在語音
信號處理中的應用 316
15.1 神經(jīng)網(wǎng)絡 316
15.1.1 人工神經(jīng)網(wǎng)絡 316
15.1.2 語音處理中的神經(jīng)網(wǎng)絡結構 319
15.2 神經(jīng)網(wǎng)絡與傳統(tǒng)方法結合的策略 324
15.2.1 概述 324
15.2.2 神經(jīng)網(wǎng)絡與DTW 325
15.2.3 神經(jīng)網(wǎng)絡與VQ 325
15.2.4 神經(jīng)網(wǎng)絡與HMM 326
15.3 基于神經(jīng)網(wǎng)絡的語音處理 327
15.3.1 語音識別 327
15.3.2 說話人識別 329
15.3.3 非線性預測編碼 330
15.3.4 語音合成 333
15.4 支持向量機 334
15.4.1 概述 334
15.4.2 工作原理 335
15.5 基于支持向量機的語音識別與
說話人識別 337
15.5.1 語音分類 337
15.5.2 說話人辨認 338
15.5.3 說話人確認 339
15.6 深度學習 340
15.7 基于深度學習的語音識別 341
15.7.1 基于深度神經(jīng)網(wǎng)絡 341
15.7.2 基于卷積神經(jīng)網(wǎng)絡 342
15.8 模糊集 343
15.9 基于模糊集的語音處理 344
15.9.1 模糊語音識別策略 344
15.9.2 模糊矢量量化 345
15.10 遺傳算法 345
15.11 遺傳矢量量化 347
15.12 其他智能優(yōu)化算法在語音處理中的
應用 348
15.13 語音處理中智能信息處理技術的
融合與集成策略 350
15.14 智能信息處理與非線性技術的結合及
在語音處理中的應用 352
15.14.1 神經(jīng)網(wǎng)絡與混沌和分形 352
15.14.2 基于混沌神經(jīng)網(wǎng)絡的語音識別 353
15.14.3 遺傳算法與混沌 355
15.14.4 神經(jīng)網(wǎng)絡與小波 355
思考與復習題 355
第16章 語音增強 357
16.1 概述 357
16.2 語音、人耳感知及噪聲的特性 358
16.3 固定濾波法 359
16.4 非線性處理 360
16.5 減譜法 361
16.5.1 基本原理 361
16.5.2 改進形式 362
16.6 相關對消法 363
16.7 自適應濾波法 363
16.7.1 自適應濾波 363
16.7.2 維納濾波 364
16.7.3 自適應噪聲對消 365
16.8 基于語音產(chǎn)生模型的語音增強 367
16.8.1 最大后驗概率估計 367
16.8.2 卡爾曼濾波 368
16.9 小波方法 369
16.9.1 原理 369
16.9.2 小波語音增強 369
16.9.3 小波包語音增強 371
16.10 子空間分解方法 372
16.11 其他語音增強方法 375
16.11.1 神經(jīng)網(wǎng)絡方法 375
16.11.2 HMM方法 376
16.11.3 基于聽覺感知的方法 376
16.11.4 壓縮感知方法 376
思考與復習題 377
第17章 麥克風陣列語音信號處理 378
17.1 概述 378
17.2 技術難點 379
17.3 聲源定位 380
17.3.1 去混響 380
17.3.2 近場模型 381
17.3.3 波束形成交叉定位 382
17.3.4 超分辨交叉定位 383
17.3.5 TDOA定位 383
17.3.6 幾類定位方法的比較 385
17.4 基于麥克風陣列的語音增強 386
17.4.1 概述 386
17.4.2 波束形成法 387
17.4.3 波束形成法與自適應濾波的結合 388
17.4.4 自適應波束形成法 388
17.4.5 新方法與技術 391
17.4.6 應用 391
17.4.7 與單通道方法相比較的優(yōu)勢 392
17.5 語音盲分離 393
17.5.1 概述 393
17.5.2 瞬時線性混合模型 394
17.5.3 卷積混合模型 398
17.5.4 非線性混合模型 400
17.5.5 需要進一步研究的問題 401
思考與復習題 401
第18章 語音信息對抗 403
18.1 語音偵察與欺騙 403
18.2 語音通信反偵察 403
18.2.1 語音保密通信 404
18.2.2 語音隱蔽通信 405
18.3 語音信息安全 406
18.3.1 語音信息隱藏 406
18.3.2 語音數(shù)字水印 408
18.4 語音干擾 409
18.4.1 語音干擾的特征 409
18.4.2 語音干擾效能評估 410
18.5 基于語音處理技術的戰(zhàn)場聲目標識別 413
思考與復習題 415
漢英名詞術語對照 416
參考文獻 425

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號