作者及譯者簡介
譯者序
序
前言
術語縮寫
符號
1簡介
1.1自動語音識別:更好的溝通之橋
1.1.1人類之間的交流
1.1.2人機交流
1.2語音識別系統(tǒng)的基本結構
1.3全書結構
1.3.1第一部分:傳統(tǒng)聲學模型
1.3.2第二部分:深度神經網絡
1.3.3第三部分:語音識別中的DNN—HMM混合系統(tǒng)
1.3.4第四部分:深度神經網絡中的特征表示學習
1.3.5第五部分:高級的深度模型
第一部分傳統(tǒng)聲學模型
2混合高斯模型
2.1隨機變量
2.2高斯分布和混合高斯隨機變量
2.3參數(shù)估計
2.4采用混合高斯分布對語音特征建模
3隱馬爾可夫模型及其變體
3.1介紹
3.2馬爾可夫鏈
3.3序列與模型
3.3.1隱馬爾可夫模型的性質
3.3.2隱馬爾可夫模型的仿真
3.3.3隱馬爾可夫模型似然度的計算
3.3.4計算似然度的高效算法
3.3.5前向與后向遞歸式的證明
3.4期望最大化算法及其在學習HMM參數(shù)中的應用
3.4.1期望最大化算法介紹
3.4.2使用EM算法來學習HMM參數(shù)—Baum—Welch算法
3.5用于解碼HMM狀態(tài)序列的維特比算法
3.5.1動態(tài)規(guī)劃和維特比算法
3.5.2用于解碼HMM狀態(tài)的動態(tài)規(guī)劃算法
3.6隱馬爾可夫模型和生成語音識別模型的變體
3.6.1用于語音識別的GMM—HMM模型
3.6.2基于軌跡和隱藏動態(tài)模型的語音建模和識別
3.6.3使用生成模型HMM及其變體解決語音識別問題
第二部分深度神經網絡
4深度神經網絡
4.1深度神經網絡框架
4.2使用誤差反向傳播來進行參數(shù)訓練
4.2.1訓練準則
4.2.2訓練算法
4.3實際應用
4.3.1數(shù)據預處理
4.3.2模型初始化
4.3.3權重衰減
4.3.4丟棄法
4.3.5批量塊大小的選擇
4.3.6取樣隨機化
4.3.7慣性系數(shù)
4.3.8學習率和停止準則
4.3.9網絡結構
4.3.10可復現(xiàn)性與可重啟性
5高級模型初始化技術
5.1受限玻爾茲曼機
5.1.1受限玻爾茲曼機的屬性
5.1.2受限玻爾茲曼機參數(shù)學習
5.2深度置信網絡預訓練
5.3降噪自動編碼器預訓練
5.4鑒別性預訓練
5.5混合預訓練
5.6采用丟棄手法的預訓練
第三部分語音識別中的深度神經網絡一隱馬爾可夫混合模型
6深度神經網絡—隱馬爾可夫模型混合系統(tǒng)
6.1DNN—HMM混合系統(tǒng)
6.1.1結構
6.1.2用CD—DNN—HMM解碼
6.1.3CD—DNN—HMM訓練過程
6.1.4上下文窗口的影響
6.2CD—DNN—HMM的關鍵模塊及分析
6.2.1進行比較和分析的數(shù)據集和實驗
6.2.2對單音素或者三音素的狀態(tài)進行建模
6.2.3越深越好
6.2.4利用相鄰的語音幀
6.2.5預訓練
6.2.6訓練數(shù)據的標注質量的影響
6.2.7調整轉移概率
6.3基于KL距離的隱馬爾可夫模型
7訓練和解碼的加速
7.1訓練加速
7.1.1使用多GPU流水線反向傳播
7.1.2異步隨機梯度下降
7.1.3增廣拉格朗日算法及乘子方向交替算法
7.1.4減小模型規(guī)模
7.1.5其他方法
7.2加速解碼
7.2.1并行計算
7.2.2稀疏網絡
7.2.3低秩近似
7.2.4用大尺寸DNN訓練小尺寸DNN
7.2.5多幀DNN
8深度神經網絡序列鑒別性訓練
8.1序列鑒別性訓練準則
8.1.1最大相互信息
8.1.2增強型MMI
8.1.3最小音素錯誤/狀態(tài)級最小貝葉斯風險
8.1.4統(tǒng)一的公式
8.2具體實現(xiàn)中的考量
8.2.1詞圖產生
8.2.2詞圖補償
8.2.3幀平滑
8.2.4學習率調整
8.2.5訓練準則選擇
8.2.6其他考量
8.3噪聲對比估計
8.3.1將概率密度估計問題轉換為二分類設計問題
8.3.2拓展到未歸一化的模型
8.3.3在深度學習網絡訓練中應用噪聲對比估計算法
第四部分深度神經網絡中的特征表示學習
9深度神經網絡中的特征表示學習
9.1特征和分類器的聯(lián)合學習
9.2特征層級
9.3使用隨意輸入特征的靈活性
9.4特征的魯棒性
9.4.1對說話人變化的魯棒性
9.4.2對環(huán)境變化的魯棒性
9.5對環(huán)境的魯棒性
9.5.1對噪聲的魯棒性
9.5.2對語速變化的魯棒性
9.6缺乏嚴重信號失真情況下的推廣能力
10深度神經網絡和混合高斯模型的融合
10.1在GMM—HMM系統(tǒng)中使用由DNN衍生的特征
10.1.1使用Tandem和瓶頸特征的GMM—HMM模型
10.1.2DNN—HMM混合系統(tǒng)與采用深度特征的GMM—HMM系統(tǒng)的比較
10.2識別結果融合技術
10.2.1識別錯誤票選降低技術(ROVER)
10.2.2分段條件隨機場(SCARF)
10.2.3最小貝葉斯風險詞圖融合
10.3幀級別的聲學分數(shù)融合
10.4多流語音識別
11深度神經網絡的自適應技術
11.1深度神經網絡中的自適應問題
11.2線性變換
11.2.1線性輸入網絡
11.2.2線性輸出網絡
11.3線性隱層網絡
11.4保守訓練
11.4.1L2正則項
11.4.2KL距離正則項
11.4.3減少每個說話人的模型開銷
11.5子空間方法
11.5.1通過主成分分析構建子空間
11.5.2噪聲感知、說話人感知及設備感知訓練
11.5.3張量
11.6DNN說話人自適應的效果
11.6.1基于KL距離的正則化方法
11.6.2說話人感知訓練
……
第五部分先進的深度學習模型
參考文獻