第1章 開始駕馭文本 1
11 駕馭文本重要的原因 2
12 預覽:一個基于事實的問答系統(tǒng) 4
121 嗨,弗蘭肯斯坦醫(yī)生 5
13 理解文本很困難 8
14 駕馭的文本 11
15 文本及智能應用:搜索及其他 13
151 搜索和匹配 13
152 抽取信息 14
153 對信息分組 15
154 一個智能應用 15
16 小結 15
17 相關資源 16
第2章 駕馭文本的基礎 17
21 語言基礎知識 18
211 詞語及其類別 19
212 短語及子句 20
213 詞法 21
22 文本處理常見工具 23
221 字符串處理工具 23
222 詞條及切詞 23
223 詞性標注 25
224 詞干還原 27
225 句子檢測 29
226 句法分析和文法 31
227 序列建模 33
23 從常見格式文件中抽取內容并做預處理 34
231 預處理的重要性 35
232 利用Apache Tika抽取內容 37
24 小結 39
25 相關資源 40
第3章 搜索 41
31 搜索和多面示例:Amazoncom 42
32 搜索概念入門 44
321 索引內容 45
322 用戶輸入 47
323 利用向量空間模型對文檔排名 51
324 結果展示 54
33 Apache Solr搜索服務器介紹 57
331 首次運行Solr 58
332 理解Solr中的概念 59
34 利用Apache Solr對內容構建索引 63
341 使用XML構建索引 64
342 利用Solr和Apache Tika對內容進行抽取和索引 66
35 利用Apache Solr來搜索內容 69
351 Solr查詢輸入?yún)?shù) 71
352 抽取內容的多面展示 74
36 理解搜索性能因素 77
361 數(shù)量判定 77
362 判斷數(shù)量 81
37 提高搜索性能 82
371 硬件改進 82
372 分析的改進 83
373 提高查詢性能 85
374 其他評分模型 88
375 提升Solr性能的技術 89
38 其他搜索工具 91
39 小結 93
310 相關資源 93
第4章 模糊字符串匹配 94
41 模糊字符串匹配方法 96
411 字符重合度度量方法 96
412 編輯距離 99
413 n元組編輯距離 102
42 尋找模糊匹配串 105
421 在Solr中使用前綴來匹配 105
422 利用trie樹進行前綴匹配 106
423 使用n元組進行匹配 111
43 構建模糊串匹配應用 112
431 在搜索中加入提前輸入功能 113
432 搜索中的查詢拼寫校正 117
433 記錄匹配 122
44 小結 127
45 相關資源 128
第5章 命名實體識別 129
51 命名實體的識別方法 131
511 基于規(guī)則的實體識別 131
512 基于統(tǒng)計分類器的實體識別 132
52 基于OpenNLP的基本實體識別 133
521 利用OpenNLP尋找人名 134
522 OpenNLP識別的實體解讀 136
523 基于概率過濾實體 137
53 利用OpenNLP進行深度命名實體識別 137
531 利用OpenNLP識別多種實體類型 138
532 OpenNLP識別實體的背后機理 141
54 OpenNLP的性能 143
541 結果的質量 144
542 運行性能 145
543 OpenNLP的內存使用 146
55 對新領域定制OpenNLP實體識別 147
551 訓練模型的原因和方法 147
552 訓練OpenNLP模型 148
553 改變建模輸入 150
554 對實體建模的新方法 152
56 小結 154
57 進一步閱讀材料 155
第6章 文本聚類 156
61 Google News中的文檔聚類 157
62 聚類基礎 158
621 三種聚類的文本類型 158
622 選擇聚類算法 160
623 確定相似度 161
624 給聚類結果打標簽 162
625 聚類結果的評估 163
63 搭建一個簡單的聚類應用 165
64 利用Carrot2對搜索結果聚類 166
641 使用Carrot2API 166
642 使用Carrot2對Solr的搜索結果聚類 168
65 利用Apache Mahout對文檔集聚類 171
651 對聚類的數(shù)據(jù)進行預處理 172
652 K-means聚類 175
66 利用Apache Mahout進行主題建模 180
67 考察聚類性能 183
671 特征選擇與特征約簡 183
672 Carrot2的性能和質量 186
673 Mahout基準聚類算法 187
68 致謝 192
69 小結 192
610 參考文獻 193
第7章 分類及標注 195
71 分類及歸類概述 197
72 分類過程 200
721 選擇分類機制 201
722 識別文本分類中的特征 202
723 訓練數(shù)據(jù)的重要性 203
724 評估分類器性能 206
725 將分類器部署到生產環(huán)境 208
73 利用Apache Lucene構建文檔分類器 209
731 利用Lucene對文本進行分類 210
732 為MoreLikeThis分類器準備訓練數(shù)據(jù) 212
733 訓練MoreLikeThis分類器 214
734 利用MoreLikeThis分類器對文檔進行分類 217
735 測試MoreLikeThis分類器 220
736 將MoreLikeThis投入生產環(huán)境 223
74 利用Apache Mahout訓練樸素貝葉斯分類器 223
741 利用樸素貝葉斯算法進行文本分類 224
742 準備訓練數(shù)據(jù) 225
743 留存測試數(shù)據(jù) 229
744 訓練分類器 229
745 測試分類器 231
746 改進自舉過程 232
747 將Mahout貝葉斯分類器集成到Solr 234
75 利用OpenNLP進行文檔分類 238
751 回歸模型及最大熵文檔分類 239
752 為最大熵文檔分類器準備訓練數(shù)據(jù) 241
753 訓練最大熵文檔分類器 242
754 測試最大熵文檔分類器 248
755 生產環(huán)境下的最大熵文檔分類器 249
76 利用Apache Solr構建標簽推薦系統(tǒng) 250
761 為標簽推薦收集訓練數(shù)據(jù) 253
762 準備訓練數(shù)據(jù) 255
763 訓練Solr標簽推薦系統(tǒng) 256
764 構建推薦標簽 258
765 對標簽推薦系統(tǒng)進行評估 261
77 小結 263
78 參考文獻 265
第8章 構建示例問答系統(tǒng) 266
81 問答系統(tǒng)基礎知識 268
82 安裝并運行QA代碼 270
83 一個示例問答系統(tǒng)的架構 271
84 理解問題并產生答案 274
841 訓練答案類型分類器 275
842 對查詢進行組塊分析 279
843 計算答案類型 280
844 生成查詢 283
845 對候選段落排序 285
85 改進系統(tǒng)的步驟 287
86 本章小結 287
87 相關資源 288
第9章 未駕馭的文本:探索未來前沿 289
91 語義、篇章和語用:探索高級NLP 290
911 語義 291
912 篇章 292
913 語用 294
92 文檔及文檔集自動摘要 295
93 關系抽取 298
931 關系抽取方法綜述 299
932 評估 302
933 關系抽取工具 303
94 識別重要內容和人物 303
941 全局重要性及權威度 304
942 個人重要性 305
943 與重要性相關的資源及位置 306
95 通過情感分析來探測情感 306
951 歷史及綜述 307
952 工具及數(shù)據(jù)需求 308
953 一個基本的極性算法 309
954 高級話題 311
955 用于情感分析的開源庫 312
96 跨語言檢索 313
97 本章小結 315
98 相關資源 315