圖解語音識別

定　價：￥59.00

作　者：	[日] 荒木雅弘著，陳舒揚，楊文剛譯
出版社：	人民郵電出版社
叢編項：
標(biāo)　簽：	暫缺

購買這本書可以去

京東 (￥59.00)

ISBN：	9787115528711	出版時間：	2020-04-01	包裝：	平裝
開本：	大32開	頁數(shù)：	191	字?jǐn)?shù)：

內(nèi)容簡介

　　《圖解語音識別》從語音識別的歷史和基礎(chǔ)知識講起，通過圖解的方式對語音識別技術(shù)進(jìn)行了盡可能簡單的解釋。內(nèi)容涉及語音學(xué)基礎(chǔ)知識、統(tǒng)計模式識別、有限狀態(tài)自動機、語音特征的提取、聲學(xué)模型和語言模型、搜索算法和基于WFST 的語音識別技術(shù)等。此外，本書沒有將語音識別限定在“將語音轉(zhuǎn)換成文本”的傳統(tǒng)范疇內(nèi)，而是在此基礎(chǔ)上，還講解了從語音識別技術(shù)到人機對話技術(shù)的演進(jìn)過程和方法。內(nèi)容涉及語義分析和語音對話系統(tǒng)的實現(xiàn)。

作者簡介

　　荒木雅弘（作者）1964年出生于日本大阪。1993年完成了日本京都大學(xué)研究生院研究科信息工程專業(yè)博士課程的學(xué)習(xí)。先后擔(dān)任過京都大學(xué)工學(xué)部助教和京都大學(xué)綜合信息媒體中心講師。1999年開始擔(dān)任日本京都工藝?yán)w維大學(xué)工藝系助理教授，2007年晉升為研究生院工藝科學(xué)研究科副教授。目前正在開發(fā)以語義網(wǎng)為知識庫的對話系統(tǒng)，研究用于多模態(tài)對話系統(tǒng)的描述語言。陳舒揚（譯者）軟件開發(fā)工程師，任職于某日企，從事軟件開發(fā)工作。熱愛編程和游戲，崇尚開源精神，對機器學(xué)習(xí)領(lǐng)域的東西都很著迷。楊文剛（譯者）長期從事軟件開發(fā)和系統(tǒng)運維工作?，F(xiàn)任職于某世界五百強企業(yè)，探索數(shù)字化轉(zhuǎn)型業(yè)務(wù)，內(nèi)容涉及大數(shù)據(jù)、機器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)。

圖書目錄

目錄
第　1章開篇
1．1　什么是語音識別　2
1．2　語音識別的歷史　4
1．3　語音識別的用處　6
1．4　為什么很難　8
1．5　本書的目標(biāo)　10
1．6　小結(jié)　12
第　2章什么是語音
2．1　語音學(xué)　16
2．2　聲音是如何產(chǎn)生的——發(fā)音語音學(xué)　16
2．3　聲音的真面目——聲學(xué)語音學(xué)　23
2．4　聲音是如何被感知的——感知語音學(xué)　29
2．5　總結(jié)　32
第3章　統(tǒng)計模式識別
3．1　什么是模式識別　34
3．2　統(tǒng)計模式識別的思路　36
3．3　生成模型的訓(xùn)練　40
3．4　判別模型的訓(xùn)練　44
3．5　統(tǒng)計語音識別的概要　45
3．6　總結(jié)　48
第4章　有限狀態(tài)自動機
4．1　什么是有限狀態(tài)自動機　50
4．2　用有限狀態(tài)自動機表達(dá)的語言　53
4．3　各種各樣的有限狀態(tài)自動機　55
4．4　有限狀態(tài)自動機的性質(zhì)　58
4．5　總結(jié)　59
第5章　語音特征的提取
5．1　特征提取的步驟　62
5．2　語音信號的數(shù)字化　64
5．3　人類聽覺模擬——頻譜分析　67
5．4　另一個精巧設(shè)計——倒譜分析　69
5．5　噪聲去除　72
5．6　總結(jié)　73
第6章　語音識別：基本聲學(xué)模型
6．1　聲學(xué)模型的單位　76
6．2　什么是隱馬爾可夫模型　78
6．3　隱馬爾可夫模型的概率計算　81
6．4　狀態(tài)序列的估計　83
6．5　參數(shù)訓(xùn)練　85
6．6　總結(jié)　89
第7章　語音識別：高級聲學(xué)模型
7．1　實際的聲學(xué)模型　92
7．2　判別訓(xùn)練　94
7．3　深度學(xué)習(xí)　96
7．4　總結(jié)　98
第8章　語音識別：語言模型
8．1　基于語法規(guī)則的語言模型　100
8．2　統(tǒng)計語言模型的思路　101
8．3　統(tǒng)計語言模型的建立方法　103
8．4　總結(jié)　108
第9章　語音識別：搜索算法
9．1　填補聲學(xué)模型和語言模型之間的空隙　112
9．2　狀態(tài)空間搜索　113
9．3　用樹形字典減少浪費　115
9．4　用集束搜索縮小范圍　116
9．5　用多次搜索提高精度　118
9．6　總結(jié)　120
第　10章語音識別：WFST運算
10．1　WFST的合成運算　124
10．2　確定化　129
10．3　權(quán)重移動　133
10．4　最小化　134
10．5　總結(jié)　135
第　11章語音識別：使用 WFST進(jìn)行語音識別
11．1　WFST轉(zhuǎn)換　138
11．2　聲學(xué)模型的 WFST轉(zhuǎn)換　139
11．3　發(fā)音字典的 WFST轉(zhuǎn)換　141
11．4　語言模型的 WFST轉(zhuǎn)換　142
11．5　WFST的搜索　144
11．6　總結(jié)　145
第　12章語義分析
12．1　什么是語義表示　148
12．2　基于規(guī)則的語義分析處理　151
12．3　基于統(tǒng)計的語義分析處理　153
12．4　智能手機的語音服務(wù)　156
12．5　總結(jié)　159
第　13章語音對話系統(tǒng)的實現(xiàn)
13．1　對話系統(tǒng)的開發(fā)方法　162
13．2　基于規(guī)則的對話管理　164
13．3　針對對話管理的統(tǒng)計方法　166
13．4　總結(jié)　170
第　14章終篇
14．1　語音分析工具 WaveSurfer　174
14．2　HMM構(gòu)建工具 HTK　175
14．3　大詞匯量連續(xù)語音識別引擎 Julius　177
14．4　虛擬代理對話工具 MMDAgent　179
14．5　深入學(xué)習(xí)之路　180
思考題的解答　182
參考文獻(xiàn)　188
后　記　191