注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡人工智能語音識別:原理與應用(全彩)

語音識別:原理與應用(全彩)

語音識別:原理與應用(全彩)

定 價:¥128.00

作 者: 洪青陽,李琳 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121385025 出版時間: 2020-07-01 包裝: 平裝
開本: 16 頁數: 336 字數:  

內容簡介

  本書系統(tǒng)地介紹了語音識別的原理和應用,全書共分 15 章,原理部分涵蓋聲學特征、隱馬爾可夫模型(HMM)、高斯混合模型(GMM)、深度神經網絡(DNN)、語言模型和加權有限狀態(tài)轉換器(WFST),重點描述了 GMM-HMM、DNN-HMM 和端到端(E2E)三種語音識別框架。本書應用部分包含 Kaldi、Espnet、工業(yè)應用實踐介紹,內容主要來自工程經驗,極具實用性。 本書可以作為普通高等學校人工智能、計算機科學與技術、電子信息工程、自動化等專業(yè)的本科生及研究生教材,也適合作為從事智能語音系統(tǒng)的科研和工程技術人員的參考用書。

作者簡介

  洪青陽,廈門大學副教授,天聰智能創(chuàng)始人,主要研究方向是語音識別、聲紋識別,先后主持國家自然基金兩項,科技部創(chuàng)新基金兩項。牽頭組建廈門大學智能語音實驗室,帶領xmuspeech團隊連續(xù)兩屆獲東方語種識別(OLR)競賽第一名,成功研發(fā)國內第一套閩南語合成系統(tǒng)。具有豐富的工業(yè)界研發(fā)經驗,與華為、云從、掌數科技等知名企業(yè)合作,承擔過大量的智能語音項目,核心技術應用到華為智能手機和全國十五個省市的司法/社保/證券/電力系統(tǒng)。長期從事本科生、研究生的語音識別教學工作,從動態(tài)時間規(guī)整(DTW)、隱馬爾可夫模型(HMM)到E2E語音識別框架,與時俱進更新教學內容,積累了豐富的教學經驗。

圖書目錄

第1章 語音識別概論 1
1.1 語音的產生和感知 1
1.2 語音識別過程 4
1.3 語音識別發(fā)展歷史 8
1.4 國內語音識別現狀 15
1.5 語音識別建模方法 19
1.5.1 DTW 19
1.5.2 GMM-HMM 20
1.5.3 DNN-HMM 20
1.5.4 端到端 22
1.6 語音識別開源工具 22
1.7 語音識別常用數據庫 22
1.8 語音識別評價指標 24
第2章 語音信號基礎 28
2.1 聲波的特性 28
2.2 聲音的接收裝置 29
2.2.1 麥克風陣列 31
2.3 聲音的采樣 32
2.4 聲音的量化 33
2.5 語音的編碼 35
2.6 WAV文件格式 38
2.7 WAV文件分析 39
第3章 語音特征提取 44
3.1 預處理 44
3.2 短時傅立葉變換 48
3.3 聽覺特性 51
3.4 線性預測 54
3.5 倒譜分析 55
3.6 常用的聲學特征 56
3.6.1 語譜圖 57
3.6.2 FBank 58
3.6.3 MFCC 59
3.6.4 PLP 61
3.6.5 CQCC 62
第4章 HMM 67
4.1 HMM的基本概念 69
4.1.1 馬爾可夫鏈 70
4.1.2 雙重隨機過程 71
4.1.3 HMM的定義 72
4.2 HMM的三個基本問題 73
4.2.1 模型評估問題 74
4.2.2 最佳路徑問題 77
4.2.3 模型訓練問題 79
第5章 GMM-HMM 83
5.1 概率統(tǒng)計 84
5.2 高斯分布 85
5.3 GMM 88
5.3.1 初始化 89
5.3.2 重估計 90
5.4 GMM-HMM 91
5.5 GMM-HMM的訓練 97
5.6 模型自適應 99
5.6.1 MAP 99
5.6.2 MLLR 100
5.6.3 fMLLR 100
5.6.4 SAT 101
課程實踐:基于HTK搭建GMM-HMM系統(tǒng) 103
第6章 基于HMM的語音識別 104
6.1 建模單元 104
6.2 發(fā)音過程與HMM狀態(tài) 107
6.3 串接HMM 108
6.4 固定語法的識別 112
6.5 隨機語法的識別 117
第7章 音素的上下文建模 125
7.1 協(xié)同發(fā)音 125
7.2 上下文建模 126
7.3 決策樹 128
7.4 問題集 129
7.4.1 手工設計 129
7.4.2 自動生成 131
7.5 三音子模型的訓練 134
第8章 語言模型 136
8.1 n-gram模型 138
8.2 評價指標——困惑度 142
8.3 平滑技術 143
8.3.1 Good-Turing折扣法 143
8.3.2 Jelinek-Mercer插值法 144
8.3.3 Kneser-Ney插值法 144
8.3.4 Katz回退法 146
8.4 語言模型的訓練 148
8.5 遞歸神經網絡語言模型 151
第9章 WFST解碼器 158
9.1 基于動態(tài)網絡的Viterbi解碼 159
9.2 WFST理論 163
9.3 HCLG構建 168
9.3.1 H的構建 169
9.3.2 C的構建 171
9.3.3 L的構建 172
9.3.4 G的構建 173
9.3.5 HCLG合并 175
9.4 WFST的Viterbi解碼 177
9.4.1 Token的定義 177
9.4.2 Viterbi算法 178
9.5 Lattice解碼 185
9.5.1 主要數據結構 185
9.5.2 令牌傳播過程 186
9.5.3 剪枝策略 189
9.5.4 Lattice 190
第10章 DNN-HMM 194
10.1 深度學習 194
10.2 DNN 195
10.2.1 激活函數 196
10.2.2 損失函數 198
10.2.3 梯度下降算法 199
10.3 DNN與HMM的結合 201
10.4 不同的DNN結構 205
10.4.1 CNN 205
10.4.2 LSTM 210
10.4.3 GRU 210
10.4.4 TDNN 211
10.4.5 TDNN-F 214
第11章 序列區(qū)分性訓練 220
11.1 區(qū)分性準則 221
11.1.1 MMI 221
11.1.2 BMMI 222
11.1.3 MPE/sMBR 222
11.2 MMI求導過程 223
11.3 Lattice-based MMI 225
11.4 Lattice-free MMI 227
11.5 Kaldi Chain模型 230
第12章 端到端語音識別 233
12.1 CTC 234
12.1.1 損失函數 235
12.1.2 前向算法 239
12.1.3 后向算法 242
12.1.4 求導過程 243
12.1.5 CTC解碼 245
12.2 RNN-T 248
12.3 Attention模型 251
12.4 Hybrid CTC/Attention 254
12.5 Transformer 256
第13章 Kaldi實踐 262
13.1 下載與安裝Kaldi 263
13.1.1 獲取源代碼 263
13.1.2 編譯 264
13.2 創(chuàng)建與配置基本的工程目錄 265
13.3 aishell語音識別工程 266
13.3.1 數據映射目錄準備 267
13.3.2 詞典準備和lang目錄生成 269
13.3.3 語言模型訓練 271
13.3.4 聲學特征提取與倒譜均值歸一化 273
13.3.5 聲學模型訓練與強制對齊 274
13.3.6 解碼測試與指標計算 277
第14章 Espnet實踐 280
14.1 數據準備 280
14.1.1 映射文件準備 280
14.1.2 特征提取 281
14.1.3 數據增強 282
14.1.4 詞典生成 282
14.1.5 數據打包 283
14.2 Espnet配置文件 284
14.3 語言模型訓練 285
14.4 聲學模型訓練 287
14.4.1 聲學模型訓練腳本 287
14.4.2 CTC聲學模型訓練 288
14.4.3 Attention聲學模型訓練 289
14.4.4 RNN-T模型訓練 290
14.4.5 Transformer模型訓練 292
14.5 語音識別解碼 293
14.6 Espnet訓練解碼可視化 294
14.6.1 Espnet訓練參數可視化 294
14.6.2 Espnet中的Attention可視化 295
14.6.3 Espnet解碼結果可視化 296
第15章 工業(yè)應用實踐 298
15.1 動態(tài)庫封裝 298
15.1.1 函數接口 298
15.1.2 動態(tài)庫編譯 306
15.1.3 動態(tài)庫調用 309
15.2 語音云平臺 310
15.3 識別引擎優(yōu)化 315
15.3.1 加快響應速度 315
15.3.2 定制語言模型 316
15.3.3 定制聲學模型 316
15.4 嵌入式移植 318

本目錄推薦

掃描二維碼
Copyright ? 讀書網 ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號