注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡人工智能智能語音處理

智能語音處理

智能語音處理

定 價:¥79.00

作 者: 張雄偉,孫蒙,楊吉斌 著
出版社: 機械工業(yè)出版社
叢編項: 智能科學與技術叢書
標 簽: 暫缺

購買這本書可以去


ISBN: 9787111665328 出版時間: 2020-09-01 包裝: 平裝
開本: 16開 頁數(shù): 248 字數(shù):  

內(nèi)容簡介

  本書系統(tǒng)性地闡述智能語音處理技術,并重點以機器學習等技術及其在語音處理中的典型應用,理論與實踐聯(lián)系緊密。

作者簡介

  本書編寫組主 編 張雄偉 孫 蒙 楊吉斌 副主編 曹鐵勇 鄭昌艷 吳海佳 參 編 曾 理 韓 偉 陳栩杉 閔 剛 孫 健 孫新建 周 彬 黃建軍 苗曉孔 李嘉康 張星昱

圖書目錄

前言
第1章 智能語音處理導論1
 11 概述1
 12 經(jīng)典語音處理2
   121 語音處理的發(fā)展2
   122 語音基本表示方法3
   123 語音處理基本方法3
   124 經(jīng)典語音處理方法的不足4
 13 智能語音處理5
   131 智能語音處理的基本概念5
   132 智能語音處理的基本框架5
   133 智能語音處理的基本模型6
 14 語音處理的應用7
   141 語音處理的傳統(tǒng)應用領域8
   142 語音處理的新應用領域11
 15 小結14
 參考文獻14
第2章 稀疏和壓縮感知15
 21 引言15
 22 稀疏和稀疏表示16
   221 稀疏16
   222 稀疏表示18
 23 冗余字典19
   231 基本概念19
   232 字典學習20
   233 字典學習算法22
   234 原子選擇算法25
 24 壓縮感知27
   241 基本概念27
   242 壓縮感知模型29
   243 觀測矩陣30
   244 信號重構32
 25 小結33
 參考文獻33
第3章 隱變量模型36
 31 引言36
 32 高斯混合模型36
   321 基本概念37
   322 GMM參數(shù)估計37
 33 隱馬爾可夫模型39
   331 基本概念39
   332 HMM關鍵問題42
 34 高斯過程隱變量模型48
   341 基本模型48
   342 GPLVM的理論來源49
   343 GPLVM模型訓練50
 35 小結51
 參考文獻51
第4章 組合模型52
 41 引言52
 42 主成分分析53
   421 基本模型53
   422 求解算法54
 43 非負矩陣分解56
   431 基本模型56
   432 求解算法57
   433 NMF與其他數(shù)據(jù)表示模型的關系58
 44 魯棒組合模型60
   441 組合模型的魯棒性分析61
   442 魯棒主成分分析61
   443 魯棒非負矩陣分解63
 45 小結64
 參考文獻64
第5章 人工神經(jīng)網(wǎng)絡和深度學習65
 51 引言65
 52 神經(jīng)網(wǎng)絡基礎66
   521 神經(jīng)元模型66
   522 淺層神經(jīng)網(wǎng)絡67
   523 深度神經(jīng)網(wǎng)絡68
 53 深度學習69
   531 基本概念和形式69
   532 深度網(wǎng)絡的學習方法70
 54 深度神經(jīng)網(wǎng)絡的典型結構71
   541 深度置信網(wǎng)絡71
   542 自動編碼器與棧式自動編碼器72
   543 卷積神經(jīng)網(wǎng)絡74
   544 循環(huán)神經(jīng)網(wǎng)絡75
   545 生成式對抗網(wǎng)絡77
 55 小結79
 參考文獻79
第6章 語音壓縮編碼81
 61 引言81
 62 基于字典學習的語音信號壓縮感知82
   621 語音信號的稀疏性82
   622 語音在常見變換域的稀疏化83
   623 基于K-L展開的語音非相干字典84
   624 基于K-L非相干字典的語音壓縮重構87
   625 實驗仿真與性能分析88
 63 基于梅爾倒譜系數(shù)重構的語音壓縮編碼93
   631 基于梅爾倒譜分析的抗噪語音編碼模型94
   632 基于稀疏約束的梅爾倒譜合成96
   633 梅爾倒譜系數(shù)的量化算法99
   634 實驗仿真與性能分析103
 64 基于深度學習的語音壓縮編碼107
   641 基于DAE的幅度譜編碼和量化107
   642 基于DAE的低速率語音編碼110
   643 實驗仿真與性能分析111
 65 小結113
 參考文獻113
第7章 語音增強115
 71 引言115
 72 語音增強技術基礎116
   721 語音增強的估計參數(shù)116
   722 智能語音增強的語音特征117
   723 性能評價118
 73 基于非負矩陣分解的語音增強120
   731 基本模型121
   732 基于不相交約束非負矩陣分解的語音增強122
   733 基于CNMF字典學習的語音增強127
 74 基于深度學習的語音增強136
   741 基于聽覺感知加權的深度神經(jīng)網(wǎng)絡語音增強方法136
   742 基于聽覺感知掩蔽的深度神經(jīng)網(wǎng)絡語音增強方法141
 75 小結151
 參考文獻152
第8章 語音轉換155
 81 引言155
 82 語音轉換基本原理155
 83 語音轉換模型與評價156
   831 語音分析/合成模型156
   832 語音參數(shù)的選擇157
   833 時間對齊157
   834 轉換模型和規(guī)則158
   835 轉換性能評價159
 84 基于非負矩陣分解的譜轉換160
   841 概述160
   842 基于卷積非負矩陣分解的譜轉換161
   843 聲道譜轉換效果164
 85 基于深度神經(jīng)網(wǎng)絡的譜轉換168
   851 深度學習驅動下的語音轉換168
   852 面向譜轉換的神經(jīng)網(wǎng)絡模型選擇168
   853 基于BLSTM和神經(jīng)網(wǎng)絡聲碼器交替訓練的語音轉換171
 86 小結176
 參考文獻176
第9章 說話人識別178
 91 引言178
 92 說話人識別基礎179
   921 說話人識別系統(tǒng)框架179
   922 典型的說話人識別模型180
 93 基于i-vector的說話人識別及其改進181
   931 基于i-vector的說話人識別概述181
   932 用于提高i-vector魯棒性的幀加權方法182
   933 實驗結果與分析187
 94 基于深度神經(jīng)網(wǎng)絡的說話人識別187
   941 基于深度神經(jīng)網(wǎng)絡的說話人識別概述187
   942 基于對比度損失函數(shù)優(yōu)化說話人矢量189
   943 實驗結果與分析191
 95 說話人識別系統(tǒng)的攻擊與防御192
   951 攻擊和防御的背景192
   952 說話人識別系統(tǒng)的攻擊方法192
   953 說話人識別攻擊的檢測方法194
   954 實驗結果與分析196
 96 小結196
 參考文獻197
第10章 骨導語音增強200
 101 引言200
 102 骨導語音增強基礎201
    1021 骨導語音的產(chǎn)生與特性201
    1022 骨導語音盲增強的特點202
    1023 骨導語音盲增強的典型方法203
 103 基于長短時記憶網(wǎng)絡的骨導語音盲增強205
    1031 骨導/氣導語音的譜映射206
    1032 基于深度殘差BLSTM的骨導語音盲增強方法207
    1033 實驗仿真及性能分析211
 104 基于均衡-生成組合譜映射的骨導語音盲增強215
    1041 均衡法215
    1042 基于均衡-生成組合譜映射的骨導語音盲增強方法216
    1043 實驗仿真及性能分析218
 105 小結222
 參考文獻223
第11章 智能語音處理展望224
 111 智能語音處理的未來224
 112 有待解決的關鍵技術225
    1121 語音識別226
    1122 語音合成228
    1123 語音增強229
    1124 語音處理中的安全問題230
 113 小結230
 參考文獻230
縮略語232

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號