注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)工業(yè)技術(shù)建筑科學(xué)建筑設(shè)計自然語言處理Python進(jìn)階

自然語言處理Python進(jìn)階

自然語言處理Python進(jìn)階

定 價:¥59.00

作 者: (印度)克里希納·巴夫薩,(印度)納雷什·庫馬爾 等
出版社: 機械工業(yè)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787111616436 出版時間: 2019-02-01 包裝: 平裝
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  第1章教你使用內(nèi)置的NLTK語料庫和頻率分布。我們還將學(xué)習(xí)什么是WordNet,并探索其特點和用法。 第2章演示如何從各種格式的數(shù)據(jù)源中提取文本。我們還將學(xué)習(xí)如何從網(wǎng)絡(luò)源提取原始文本。zui后,我們將從這些異構(gòu)數(shù)據(jù)源中對原始文本進(jìn)行規(guī)范并構(gòu)建語料庫。 第3章介紹一些關(guān)鍵的預(yù)處理步驟,如分詞、詞干提取、詞形還原和編輯距離。 第4章介紹正則表達(dá)式,它是zui基本、zui簡單、zui重要和zui強大的工具之一。在本章中,你將學(xué)習(xí)模式匹配的概念,它是文本分析的一種方式,基于此概念,沒有比正則表達(dá)式更方便的工具了。 第5章將學(xué)習(xí)如何使用和編寫自己的詞性標(biāo)注器和文法規(guī)則。詞性標(biāo)注是進(jìn)一步句法分析的基礎(chǔ),而通過使用詞性標(biāo)記和組塊標(biāo)記可以產(chǎn)生或改進(jìn)文法規(guī)則。 第6章幫助你了解如何使用內(nèi)置分塊器以及訓(xùn)練或編寫自己的分塊器,即依存句法分析器。在本章中,你將學(xué)習(xí)評估自己訓(xùn)練的模型。 第7章介紹信息抽取和文本分類,告訴你關(guān)于命名實體識別的更多信息。我們將使用內(nèi)置的命名實體識別工具,并使用字典創(chuàng)建自己的命名實體。我們將學(xué)會使用內(nèi)置的文本分類算法和一些簡單的應(yīng)用實例。 第8章介紹高階自然語言處理方法,該方法將目前為止你所學(xué)的所有課程結(jié)合到一起,并創(chuàng)建應(yīng)對你現(xiàn)實生活中各種問題的適用方法。我們將介紹諸如文本相似度、摘要、情感分析、回指消解等任務(wù)。 第9章介紹深度學(xué)習(xí)應(yīng)用于自然語言處理所必需的各種基本原理,例如利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短型記憶網(wǎng)絡(luò)(LSTM)進(jìn)行郵件分類、情感分類等,zui后在低維空間中可視化高維詞匯。 第10章描述如何利用深度學(xué)習(xí)解決zui前沿的問題,包括文本自動生成、情景數(shù)據(jù)問答,預(yù)測下一個優(yōu)詞的語言模型以及生成式聊天機器人的開發(fā)。

作者簡介

  克里希納·巴夫薩(Krishna Bhavsar)花了大約10年時間在各行業(yè)領(lǐng)域如酒店業(yè)、銀行業(yè)、醫(yī)療行業(yè)等進(jìn)行自然語言處理、社交媒體分析和文本挖掘方面的研究。他致力于用不同的NLP語料庫如Stanford CoreNLP、IBM的 SystemText和BigInsights、GATE和NLTK來解決與文本分析有關(guān)的行業(yè)問題??死锵<{還致力于分析社交媒體給熱門電視節(jié)目和流行零售品牌以及產(chǎn)品帶來的效應(yīng)。2010年,他在NAACL上發(fā)表了一篇關(guān)于情感分析增強技術(shù)的論文。近期,他創(chuàng)建了一個NLP管道/工具集并開源以便公眾使用。除了學(xué)術(shù)和科技,克里希納還熱衷于摩托車和足球,空閑時間喜歡旅行和探索。他騎摩托車參加過環(huán)印度公路旅行并在東南亞和歐洲大部分國家徒步旅行過。 納雷什·庫馬爾(Naresh Kumar)曾為財富500強企業(yè)設(shè)計、實施和運行超大型因特網(wǎng)應(yīng)用程序,在這方面他擁有超過十年的專業(yè)經(jīng)驗。他是一位全棧架構(gòu)師,在電子商務(wù)、網(wǎng)絡(luò)托管、醫(yī)療、大數(shù)據(jù)及分析、數(shù)據(jù)流、廣告和數(shù)據(jù)庫等領(lǐng)域擁有豐富的實踐經(jīng)驗。他依賴開源并積極為其做貢獻(xiàn)。納雷什一直走在新興技術(shù)的前沿,從Linux系統(tǒng)內(nèi)部技術(shù)到前端技術(shù)。他曾在拉賈斯坦邦的BITS-Pilani學(xué)習(xí),獲得了計算機科學(xué)和經(jīng)濟學(xué)的雙學(xué)位。 普拉塔普·丹蒂(Pratap Dangeti)在班加羅爾的研究和創(chuàng)新實驗室開發(fā)機器學(xué)習(xí)和深度學(xué)習(xí)方法,以用于結(jié)構(gòu)化、圖像和TCS文本數(shù)據(jù)。他在分析和數(shù)據(jù)科學(xué)領(lǐng)域擁有豐富的經(jīng)驗,并在IIT Bombay獲得了工業(yè)工程和運籌學(xué)項目的碩士學(xué)位。普拉塔普是一名人工智能愛好者。閑暇時,他喜歡閱讀下一代技術(shù)和創(chuàng)新方法。他還是Packt出版的《Statistics for Machine Learning》一書的作者。

圖書目錄

譯者序

前言

作者簡介

審校者簡介

第1章 語料庫和WordNet  1

1.1 引言 1

1.2 訪問內(nèi)置語料庫  1

1.3 下載外部語料庫,加載并訪問  3

1.4 計算布朗語料庫中三種不同類別的特殊疑問詞  5

1.5 探討網(wǎng)絡(luò)文本和聊天文本的詞頻分布  7

1.6 使用WordNet進(jìn)行詞義消歧  9

1.7 選擇兩個不同的同義詞集,使用WordNet探討上位詞和下位詞的概念  12

1.8 基于WordNet計算名詞、動詞、形容詞和副詞的平均多義性  15

第2章 針對原始文本,獲取源數(shù)據(jù)和規(guī)范化  17

2.1 引言 17

2.2 字符串操作的重要性  17

2.3 深入實踐字符串操作  19

2.4 在Python中讀取PDF文件  21

2.5 在Python中讀取Word文件 23

2.6 使用PDF、DOCX和純文本文件,創(chuàng)建用戶自定義的語料庫  26

2.7 讀取RSS信息源的內(nèi)容  29

2.8 使用BeautifulSoup解析HTML  31

第3章 預(yù)處理  34

3.1 引言 34

3.2 分詞——學(xué)習(xí)使用NLTK內(nèi)置的分詞器  34

3.3 詞干提取——學(xué)習(xí)使用NLTK內(nèi)置的詞干提取器  36

3.4 詞形還原——學(xué)習(xí)使用NLTK中的WordnetLemmatizer函數(shù) 38

3.5 停用詞——學(xué)習(xí)使用停用詞語料庫及其應(yīng)用  40

3.6 編輯距離——編寫計算兩個字符串之間編輯距離的算法  42

3.7 處理兩篇短文并提取共有詞匯  44

第4章 正則表達(dá)式  50

4.1 引言 50

4.2 正則表達(dá)式——學(xué)習(xí)使用*、 和?  50

4.3 正則表達(dá)式——學(xué)習(xí)使用$和^,以及如何在單詞內(nèi)部(非開頭與結(jié)尾處)進(jìn)行模式匹配  52

4.4 匹配多個字符串和子字符串  54

4.5 學(xué)習(xí)創(chuàng)建日期正則表達(dá)式和一組字符集合或字符范圍  56

4.6 查找句子中所有長度為5的單詞,并進(jìn)行縮寫  58

4.7 學(xué)習(xí)編寫基于正則表達(dá)式的分詞器  59

4.8 學(xué)習(xí)編寫基于正則表達(dá)式的詞干提取器  60

第5章 詞性標(biāo)注和文法  63

5.1 引言 63

5.2 使用內(nèi)置的詞性標(biāo)注器  63

5.3 編寫你的詞性標(biāo)注器  65

5.4 訓(xùn)練你的詞性標(biāo)注器  70

5.5 學(xué)習(xí)編寫你的文法  73

5.6 編寫基于概率的上下文無關(guān)文法  76

5.7 編寫遞歸的上下文無關(guān)文法  79

第6章 分塊、句法分析、依存分析  82

6.1 引言 82

6.2 使用內(nèi)置的分塊器  82

6.3 編寫你的簡單分塊器  84

6.4 訓(xùn)練分塊器  87

6.5 遞歸下降句法分析  90

6.6 shift-reduce句法分析 93

6.7 依存句法分析和主觀依存分析  95

6.8 線圖句法分析  97

第7章 信息抽取和文本分類  101

7.1 引言 101

7.2 使用內(nèi)置的命名實體識別工具  102

7.3 創(chuàng)建字典、逆序字典和使用字典  104

7.4 特征集合選擇  109

7.5 利用分類器分割句子  113

7.6 文本分類  116

7.7 利用上下文進(jìn)行詞性標(biāo)注  120

第8章 高階自然語言處理實踐  124

8.1 引言 124

8.2 創(chuàng)建一條自然語言處理管道  124

8.3 解決文本相似度問題  131

8.4 主題識別  136

8.5 文本摘要  140

8.6 指代消解  143

8.7 詞義消歧  147

8.8 情感分析  150

8.9 高階情感分析  153

8.10 創(chuàng)建一個對話助手或聊天機器人  157

第9章 深度學(xué)習(xí)在自然語言處理中的應(yīng)用  163

9.1 引言 163

9.2 利用深度神經(jīng)網(wǎng)絡(luò)對電子郵件進(jìn)行分類  168

9.3 使用一維卷積網(wǎng)絡(luò)進(jìn)行IMDB情感分類 175

9.4 基于雙向LSTM的IMDB情感分類模型  179

9.5 利用詞向量實現(xiàn)高維詞在二維空間的可視化  183

第10章 深度學(xué)習(xí)在自然語言處理中的高級應(yīng)用  188

10.1 引言 188

10.2 基于莎士比亞的著作使用LSTM技術(shù)自動生成文本  188

10.3 基于記憶網(wǎng)絡(luò)的情景數(shù)據(jù)問答  193

10.4 使用循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM進(jìn)行語言建模以預(yù)測最優(yōu)詞  199

10.5 使用循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM構(gòu)建生成式聊天機器人  203


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號