定 價(jià):¥79.00
作 者: | (印度)雅蘭·薩納卡 |
出版社: | 機(jī)械工業(yè)出版社 |
叢編項(xiàng): | 智能系統(tǒng)與技術(shù)叢書 |
標(biāo) 簽: | 暫缺 |
ISBN: | 9787111606703 | 出版時間: | 2018-09-01 | 包裝: | |
開本: | 頁數(shù): | 字?jǐn)?shù): |
譯者序
推薦序
作者介紹
關(guān)于審校人員
前言
第1章 引言 1
1.1 自然語言處理 1
1.2 基礎(chǔ)應(yīng)用 5
1.3 高級應(yīng)用 6
1.4 NLP和Python相結(jié)合的優(yōu)勢 7
1.5 nltk環(huán)境搭建 7
1.6 讀者提示 8
1.7 總結(jié) 9
第2章 實(shí)踐理解語料庫和數(shù)據(jù)集 10
2.1 語料庫 10
2.2 語料庫的作用 11
2.3 語料分析 13
2.4 數(shù)據(jù)屬性的類型 16
2.4.1 分類或定性數(shù)據(jù)屬性 16
2.4.2 數(shù)值或定量數(shù)據(jù)屬性 17
2.5 不同文件格式的語料 18
2.6 免費(fèi)語料庫資源 19
2.7 為NLP應(yīng)用準(zhǔn)備數(shù)據(jù)集 20
2.7.1 挑選數(shù)據(jù) 20
2.7.2 預(yù)處理數(shù)據(jù)集 20
2.8 網(wǎng)頁爬取 21
2.9 總結(jié) 23
第3章 理解句子的結(jié)構(gòu) 24
3.1 理解NLP的組成 24
3.1.1 自然語言理解 24
3.1.2 自然語言生成 25
3.1.3 NLU和NLG的區(qū)別 25
3.1.4 NLP的分支 26
3.2 上下文無關(guān)文法 26
3.3 形態(tài)分析 28
3.3.1 形態(tài)學(xué) 28
3.3.2 詞素 28
3.3.3 詞干 28
3.3.4 形態(tài)分析 28
3.3.5 詞 29
3.3.6 詞素的分類 29
3.3.7 詞干和詞根的區(qū)別 32
3.4 詞法分析 32
3.4.1 詞條 33
3.4.2 詞性標(biāo)注 33
3.4.3 導(dǎo)出詞條的過程 33
3.4.4 詞干提取和詞形還原的區(qū)別 34
3.4.5 應(yīng)用 34
3.5 句法分析 34
3.6 語義分析 36
3.6.1 語義分析概念 36
3.6.2 詞級別的語義 37
3.6.3 上下位關(guān)系和多義詞 37
3.6.4 語義分析的應(yīng)用 38
3.7 消歧 38
3.7.1 詞法歧義 38
3.7.2 句法歧義 39
3.7.3 語義歧義 39
3.7.4 語用歧義 39
3.8 篇章整合 40
3.9 語用分析 40
3.10 總結(jié) 40
第4章 預(yù)處理 42
4.1 處理原始語料庫文本 42
4.1.1 獲取原始文本 42
4.1.2 小寫化轉(zhuǎn)換 44
4.1.3 分句 44
4.1.4 原始文本詞干提取 46
4.1.5 原始文本詞形還原 46
4.1.6 停用詞去除 48
4.2 處理原始語料庫句子 50
4.2.1 詞條化 50
4.2.2 單詞詞形還原 51
4.3 基礎(chǔ)預(yù)處理 52
4.4 實(shí)踐和個性化預(yù)處理 57
4.4.1 由你自己決定 57
4.4.2 預(yù)處理流程 57
4.4.3 預(yù)處理的類型 57
4.4.4 理解預(yù)處理的案例 57
4.5 總結(jié) 62
第5章 特征工程和NLP算法 63
5.1 理解特征工程 64
5.1.1 特征工程的定義 64
5.1.2 特征工程的目的 64
5.1.3 一些挑戰(zhàn) 65
5.2 NLP中的基礎(chǔ)特征 65
5.2.1 句法分析和句法分析器 65
5.2.2 詞性標(biāo)注和詞性標(biāo)注器 81
5.2.3 命名實(shí)體識別 85
5.2.4 n元語法 88
5.2.5 詞袋 89
5.2.6 語義工具及資源 91
5.3 NLP中的基礎(chǔ)統(tǒng)計(jì)特征 91
5.3.1 數(shù)學(xué)基礎(chǔ) 92
5.3.2 TF-IDF 96
5.3.3 向量化 99
5.3.4 規(guī)范化 100
5.3.5 概率模型 101
5.3.6 索引 103
5.3.7 排序 103
5.4 特征工程的優(yōu)點(diǎn) 104
5.5 特征工程面臨的挑戰(zhàn) 104
5.6 總結(jié) 104
第6章 高級特征工程和NLP算法 106
6.1 詞嵌入 106
6.2 word2vec基礎(chǔ) 106
6.2.1 分布語義 107
6.2.2 定義word2vec 108
6.2.3 無監(jiān)督分布語義模型中的必需品 108
6.3 word2vec模型從黑盒到白盒 109
6.4 基于表示的分布相似度 110
6.5 word2vec模型的組成部分 111
6.5.1 word2vec的輸入 111
6.5.2 word2vec的輸出 111
6.5.3 word2vec模型的構(gòu)建模塊 111
6.6 word2vec模型的邏輯 113
6.6.1 詞匯表構(gòu)建器 114
6.6.2 上下文環(huán)境構(gòu)建器 114
6.6.3 兩層的神經(jīng)網(wǎng)絡(luò) 116
6.6.4 算法的主要流程 119
6.7 word2vec模型背后的算法和數(shù)學(xué)理論 120
6.7.1 word2vec算法中的基本數(shù)學(xué)理論 120
6.7.2 詞匯表構(gòu)建階段用到的技術(shù) 121
6.7.3 上下文環(huán)境構(gòu)建過程中使用的技術(shù) 122
6.8 神經(jīng)網(wǎng)絡(luò)算法 123
6.8.1 基本神經(jīng)元結(jié)構(gòu) 123
6.8.2 訓(xùn)練一個簡單的神經(jīng)元 124
6.8.3 單個神經(jīng)元的應(yīng)用 126
6.8.4 多層神經(jīng)網(wǎng)絡(luò) 127
6.8.5 反向傳播算法 127
6.8.6 word2vec背后的數(shù)學(xué)理論 128
6.9 生成最終詞向量和概率預(yù)測結(jié)果的技術(shù) 130
6.10 word2vec相關(guān)的一些事情 131
6.11 word2vec的應(yīng)用 131
6.11.1 實(shí)現(xiàn)一些簡單例子 132
6.11.2 word2vec的優(yōu)勢 133
6.11.3 word2vec的挑戰(zhàn) 133
6.11.4 在實(shí)際應(yīng)用中使用word2vec 134
6.11.5 何時使用word2vec 135
6.11.6 開發(fā)一些有意思的東西 135
6.11.7 練習(xí) 138
6.12 word2vec概念的擴(kuò)展 138
6.12.1 para2vec 139
6.12.2 doc2vec 139
6.12.3 doc2vec的應(yīng)用 140
6.12.4 GloVe 140
6.12.5 練習(xí) 141
6.13 深度學(xué)習(xí)中向量化的重要性 141
6.14 總結(jié) 142
第7章 規(guī)則式自然語言處理系統(tǒng) 143
7.1 規(guī)則式系統(tǒng) 144
7.2 規(guī)則式系統(tǒng)的目的 146
7.2.1 為何需要規(guī)則式系統(tǒng) 146
7.2.2 使用規(guī)則式系統(tǒng)的應(yīng)用 147
7.2.3 練習(xí) 147
7.2.4 開發(fā)規(guī)則式系統(tǒng)需要的資源 147
7.3 規(guī)則式系統(tǒng)的架構(gòu) 148
7.3.1 從專家系統(tǒng)的角度來看規(guī)則式系統(tǒng)的通用架構(gòu) 149
7.3.2 NLP應(yīng)用中的規(guī)則式系統(tǒng)的實(shí)用架構(gòu) 150
7.3.3 NLP應(yīng)用中的規(guī)則式系統(tǒng)的定制架構(gòu) 152
7.3.4 練習(xí) 155
7.3.5 Apache UIMA架構(gòu) 155
7.4 規(guī)則式系統(tǒng)的開發(fā)周期 156
7.5 規(guī)則式系統(tǒng)的應(yīng)用 156
7.5.1 使用規(guī)則式系統(tǒng)的NLP應(yīng)用 156
7.5.2 使用規(guī)則式系統(tǒng)的通用AI應(yīng)用 157
7.6 使用規(guī)則式系統(tǒng)來開發(fā)NLP應(yīng)用 157
7.6.1 編寫規(guī)則的思維過程 158
7.6.2 基于模板的聊天機(jī)器人應(yīng)用 165
7.7 規(guī)則式系統(tǒng)與其他方法的對比 168
7.8 規(guī)則式系統(tǒng)的優(yōu)點(diǎn) 169
7.9 規(guī)則式系統(tǒng)的缺點(diǎn) 169
7.10 規(guī)則式系統(tǒng)面臨的挑戰(zhàn) 170
7.11 詞義消歧的基礎(chǔ) 170
7.12 規(guī)則式系統(tǒng)近期發(fā)展的趨勢 171
7.13 總結(jié) 171
第8章 自然語言處理中的機(jī)器學(xué)習(xí)方法 172
8.1 機(jī)器學(xué)習(xí)的基本概念 172
8.2 自然語言處理應(yīng)用的開發(fā)步驟 176
8.2.1 次迭代時的開發(fā)步驟 177
8.2.2 從第二次到第N次迭代的開發(fā)步驟 177
8.3 機(jī)器學(xué)習(xí)算法和其他概念 179
8.3.1 有監(jiān)督機(jī)器學(xué)習(xí)方法 179
8.3.2 無監(jiān)督機(jī)器學(xué)習(xí)方法 206
8.3.3 半監(jiān)督機(jī)器學(xué)習(xí)算法 210
8.3.4 一些重要概念 211
8.3.5 特征選擇 215
8.3.6 維度約減 219
8.4 自然語言處理中的混合方法 221
8.5 總結(jié) 221
第9章 NLU和NLG問題中的深度學(xué)習(xí) 223
9.1 人工智能概覽 223
9.1.1 人工智能的基礎(chǔ) 223
9.1.2 人工智能的階段 225
9.1.3 人工智能的種類 227
9.1.4 人工智能的目標(biāo)和應(yīng)用 227
9.2 NLU和NLG之間的區(qū)別 232
9.2.1 自然語言理解 232
9.2.2 自然語言生成 232
9.3 深度學(xué)習(xí)概覽 233
9.4 神經(jīng)網(wǎng)絡(luò)基礎(chǔ) 234
9.4.1 神經(jīng)元的個計(jì)算模型 235
9.4.2 感知機(jī) 236
9.4.3 理解人工神經(jīng)網(wǎng)絡(luò)中的數(shù)學(xué)概念 236
9.5 實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò) 249
9.5.1 單層反向傳播神經(jīng)網(wǎng)絡(luò) 249
9.5.2 練習(xí) 251
9.6 深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò) 251
9.6.1 回顧深度學(xué)習(xí) 251
9.6.2 深度神經(jīng)網(wǎng)絡(luò)的基本架構(gòu) 251
9.6.3 NLP中的深度學(xué)習(xí) 252
9.6.4 傳統(tǒng)NLP和深度學(xué)習(xí)NLP技術(shù)的區(qū)別 253
9.7 深度學(xué)習(xí)技術(shù)和NLU 255
9.8 深度學(xué)習(xí)技術(shù)和NLG 262
9.8.1 練習(xí) 262
9.8.2 菜譜摘要和標(biāo)題生成 262
9.9 基于梯度下降的優(yōu)化 265
9.10 人工智能與人類智能 269
9.11 總結(jié) 269
第10章 高級工具 270
10.1 使用Apache Hadoop作為存儲框架 270
10.2 使用Apache Spark作為數(shù)據(jù)處理框架 272
10.3 使用Apache Flink作為數(shù)據(jù)實(shí)時處理框架 274
10.4 Python中的可視化類庫 274
10.5 總結(jié) 275
第11章 如何提高你的NLP技能 276
11.1 開始新的NLP職業(yè)生涯 276
11.2 備忘列表 277
11.3 確定你的領(lǐng)域 277
11.4 通過敏捷的工作來實(shí)現(xiàn)成功 278
11.5 NLP和數(shù)據(jù)科學(xué)方面一些有用的博客 278
11.6 使用公開的數(shù)據(jù)集 278
11.7 數(shù)據(jù)科學(xué)領(lǐng)域需要的數(shù)學(xué)知識 278
11.8 總結(jié) 279
第12章 安裝指導(dǎo) 280
12.1 安裝Python、pip和NLTK 280
12.2 安裝PyCharm開發(fā)環(huán)境 280
12.3 安裝依賴庫 280
12.4 框架安裝指導(dǎo) 281
12.5 解決你的疑問 281
12.6 總結(jié) 281