注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計Java自然語言處理

Java自然語言處理

Java自然語言處理

定 價:¥59.00

作 者: [美] 理查德·里斯(Richard M Reese) 著;鄒偉 孫逢舉譯 譯
出版社: 機(jī)械工業(yè)出版社
叢編項: 智能系統(tǒng)與技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787111592112 出版時間: 2018-03-01 包裝: 平裝
開本: 16開 頁數(shù): 193 字?jǐn)?shù):  

內(nèi)容簡介

  自然語言處理(NLP)是應(yīng)用程序開發(fā)的重要領(lǐng)域,在解決實際問題中起著越來越重要的作用。NLP任務(wù)支持的自然語言可訪問應(yīng)用程序需求顯著增。本書將探索如何使用諸如全文本搜索、專有名稱識別、聚類、標(biāo)記、信息提取、匯總等方法自主組織文本。書中涵蓋了NLP的概念,即使沒有統(tǒng)計或自然語言處理背景的人也可以理解它。

作者簡介

  bout the Author 作者簡介 Richard M. Reese曾就職于學(xué)術(shù)界和工業(yè)界。他曾在電信和航天工業(yè)領(lǐng)域工作17年,期間曾擔(dān)任研發(fā)、軟件開發(fā)、監(jiān)督和培訓(xùn)等多個職位。他目前任教于塔爾頓州立大學(xué),運用他多年來積累的行業(yè)經(jīng)驗來完善他的課程。 Richard曾出版過關(guān)于Java和C的書籍,他使用簡潔易用的方法討論主題,這些書籍包括《EJB 3.1 Cookbook》,有關(guān)Java 7和Java 8的新功能、Java認(rèn)證以及jMonkey引擎,以及一本關(guān)于C指針的書。 我要感謝我的女兒詹妮弗,因她發(fā)表了很多評論,并做出很大貢獻(xiàn)。她的付出是無價的。

圖書目錄

CONTENTS
目  錄
譯者序
作者簡介
審校者簡介
前言
第1章 NLP簡介 1
1.1 什么是NLP 2
1.2 為何使用NLP 3
1.3 NLP的難點 4
1.4 NLP工具匯總 5
1.4.1 Apache OpenNLP 6
1.4.2 Stanford NLP 7
1.4.3 LingPipe 9
1.4.4 GATE 10
1.4.5 UIMA 10
1.5 文本處理概覽 10
1.5.1 文本分詞 11
1.5.2 文本斷句 12
1.5.3 人物識別 14
1.5.4 詞性判斷 16
1.5.5 文本分類 17
1.5.6 關(guān)系提取 18
1.5.7 方法組合 20
1.6 理解NLP模型 20
1.6.1 明確目標(biāo) 20
1.6.2 選擇模型 21
1.6.3 構(gòu)建、訓(xùn)練模型 21
1.6.4 驗證模型 22
1.6.5 使用模型 22
1.7 準(zhǔn)備數(shù)據(jù) 22
1.8 本章小結(jié) 24
第2章 文本分詞 25
2.1 理解文本分詞 25
2.2 什么是分詞 26
2.3 一些簡單的Java分詞器 28
2.3.1 使用Scanner類 29
2.3.2 使用split方法 30
2.3.3 使用BreakIterator類 31
2.3.4 使用StreamTokenizer類 32
2.3.5使用StringTokenizer類 34
2.3.6使用Java核心分詞法的性能考慮 34
2.4NLP分詞器的API 34
2.4.1使用OpenNLPTokenizer類分詞器 35
2.4.2使用Stanford分詞器 37
2.4.3訓(xùn)練分詞器進(jìn)行文本分詞 41
2.4.4分詞器的比較 44
2.5理解標(biāo)準(zhǔn)化處理 45
2.5.1轉(zhuǎn)換為小寫字母 45
2.5.2去除停用詞 46
2.5.3詞干化 49
2.5.4詞形還原 51
2.5.5使用流水線進(jìn)行標(biāo)準(zhǔn)化處理 54
2.6本章小結(jié) 55
第3章 文本斷句 56
3.1SBD方法 56
3.2SBD難在何處 57
3.3理解LingPipe的HeuristicSen-tenceModel類的SBD規(guī)則 59
3.4簡單的Java SBD 60
3.4.1使用正則表達(dá)式 60
3.4.2使用BreakIterator類 62
3.5使用NLP API 63
3.5.1使用OpenNLP 64
3.5.2使用Stanford API 66
3.5.3使用LingPipe 74
3.6訓(xùn)練文本斷句模型 78
3.6.1使用訓(xùn)練好的模型 80
3.6.2使用SentenceDetector-Evaluator類評估模型 81
3.7本章小結(jié) 82
第4章 人物識別 83
4.1NER難在何處 84
4.2NER的方法 84
4.2.1列表和正則表達(dá)式 85
4.2.2統(tǒng)計分類器 85
4.3使用正則表達(dá)式進(jìn)行NER 86
4.3.1使用Java的正則表達(dá)式來尋找實體 86
4.3.2使用LingPipe的RegEx-Chunker類 88
4.4使用NLP API 89
4.4.1使用OpenNLP進(jìn)行NER 89
4.4.2使用Stanford API進(jìn)行NER 95
4.4.3使用LingPipe進(jìn)行NER 96
4.5訓(xùn)練模型 100
4.6本章小結(jié) 103
第5章 詞性判斷 104
5.1詞性標(biāo)注 104
5.1.1詞性標(biāo)注器的重要性 107
5.1.2詞性標(biāo)注難在何處 107
5.2使用NLP API 109
5.2.1使用OpenNLP詞性標(biāo)注器 110
5.2.2使用Stanford詞性標(biāo)注器 118
5.2.3使用LingPipe詞性標(biāo)注器 125
5.2.4訓(xùn)練OpenNLP詞性標(biāo)注模型 129
5.3本章小結(jié) 131
第6章 文本分類 132
6.1文本分類問題 132
6.2情感分析介紹 134
6.3文本分類技術(shù) 135
6.4使用API進(jìn)行文本分類 136
6.4.1OpenNLP的使用 136
6.4.2Stanford API的使用 140
6.4.3使用LingPipe進(jìn)行文本分類 145
6.5本章小結(jié) 152
第7章 關(guān)系提取 153
7.1關(guān)系類型 154
7.2理解解析樹 155
7.3關(guān)系提取的應(yīng)用 156
7.4關(guān)系提取 159
7.5使用NLP API 159
7.5.1OpenNLP的使用 159
7.5.2使用Stanford API 162
7.5.3判斷共指消解的實體 166
7.6問答系統(tǒng)的關(guān)系提取 168
7.6.1判斷單詞依賴關(guān)系 169
7.6.2判斷問題類型 170
7.6.3搜索答案 171
7.7本章小結(jié) 173
第8章 方法組合 174
8.1準(zhǔn)備數(shù)據(jù) 175
8.1.1使用Boilerpipe從HTML中提取文本 175
8.1.2使用POI從Word文檔中提取文本 177
8.1.3使用PDFBox從PDF文檔中提取文本 181
8.2流水線 182
8.2.1使用Stanford流水線 182
8.2.2在Standford流水線中使用多核處理器 187
8.3創(chuàng)建一個文本搜索的流水線 188
8.4本章小結(jié) 193

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號