Python自然語言處理實戰(zhàn)：核心技術(shù)與算法

定　價：￥69.00

作　者：	涂銘劉祥劉樹春著
出版社：	機(jī)械工業(yè)出版社
叢編項：	智能系統(tǒng)與技術(shù)叢書
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787111597674	出版時間：	2018-06-01	包裝：	平裝
開本：	16開	頁數(shù)：	281	字?jǐn)?shù)：

內(nèi)容簡介

　　這是一本自然語言處理理論和實踐完美結(jié)合的教材。讀者在了解自然語言處理全貌的同時，可以根據(jù)本書的一些實踐案例快速上手并應(yīng)用于自己的項目中。作者結(jié)合自己的實踐經(jīng)驗，重點介紹了真實場景下快速構(gòu)建一些自然語言處理項目所需的技能，并提供了一些工具推薦或算法實現(xiàn)。本書著眼于實際應(yīng)用場景，主要介紹了分詞、詞性標(biāo)注和名實體識別、句法分析等基本技術(shù)，并通過剖析近年來在自然語言處理領(lǐng)域大放光彩的深度學(xué)習(xí)技術(shù)，力求快速地帶領(lǐng)讀者入門自然語言處理。作者在后還通過在大數(shù)據(jù)平臺上的實戰(zhàn)項目，完整呈現(xiàn)了真實場景下自然語言處理項目的整個環(huán)節(jié)，以供讀者參考。

作者簡介

　　涂銘：阿里巴巴數(shù)據(jù)架構(gòu)師，對大數(shù)據(jù)、自然語言處理、Python、Java相關(guān)技術(shù)有深入的研究，積累了豐富的實踐經(jīng)驗。曾就職于北京明略數(shù)據(jù)，是大數(shù)據(jù)方面的高級咨詢顧問。在工業(yè)領(lǐng)域參與了設(shè)備故障診斷項目，在零售行業(yè)參與了精準(zhǔn)營銷項目。在自然語言處理方面，擔(dān)任導(dǎo)購機(jī)器人項目的架構(gòu)師，主導(dǎo)開發(fā)機(jī)器人的語義理解、短文本相似度匹配、上下文理解，以及通過自然語言檢索產(chǎn)品庫，在項目中構(gòu)建了NoSQL+文本檢索等大數(shù)據(jù)架構(gòu)，也同時負(fù)責(zé)問答對的整理和商品屬性的提取，帶領(lǐng)NLP團(tuán)隊構(gòu)建語義解析層。劉祥：百煉智能自然語言處理專家，主要研究知識圖譜、NLG等前沿技術(shù)，參與機(jī)器自動寫作產(chǎn)品的研發(fā)與設(shè)計。曾在明略數(shù)據(jù)擔(dān)當(dāng)數(shù)據(jù)技術(shù)合伙人兼數(shù)據(jù)科學(xué)家，負(fù)責(zé)工業(yè)、金融等業(yè)務(wù)領(lǐng)域的數(shù)據(jù)挖掘工作，在這些領(lǐng)域構(gòu)建了諸如故障診斷、關(guān)聯(lián)賬戶分析、新聞推薦、商品推薦等模型?？釔坌录夹g(shù)，活躍于開源社區(qū)，是Spark MLlib和Zeppelin的Contributor。劉樹春：七牛云高級算法專家，七牛AI實驗室NLP&OCR方向負(fù)責(zé)人，主要負(fù)責(zé)七牛NLP以及OCR相關(guān)項目的研究與落地。在七牛人工智能實驗室期間，參與大量NLP相關(guān)項目，例如知識圖譜、問答系統(tǒng)、文本摘要、語音相關(guān)系統(tǒng)等；同時重點關(guān)注NLP與CV的交叉研究領(lǐng)域，主要有視覺問答（VQA），圖像標(biāo)注（Image Caption）等前沿問題。曾在Intel DCSG數(shù)據(jù)與云計算部門從事機(jī)器學(xué)習(xí)與云平臺的融合開發(fā)，項目獲得IDF大獎。碩士就讀于華東師范大學(xué)機(jī)器學(xué)習(xí)實驗室，在校期間主攻機(jī)器學(xué)習(xí)，機(jī)器視覺，圖像處理，并在相關(guān)國際會議發(fā)表多篇SCI/EI論文。

圖書目錄

目　　錄
序一
序二
前言
第1章　NLP基礎(chǔ) 1
1.1　什么是NLP 1
1.1.1　NLP的概念 1
1.1.2　NLP的研究任務(wù) 3
1.2　NLP的發(fā)展歷程 5
1.3　NLP相關(guān)知識的構(gòu)成 7
1.3.1　基本術(shù)語 7
1.3.2　知識結(jié)構(gòu) 9
1.4　語料庫 10
1.5　探討NLP的幾個層面 11
1.6　NLP與人工智能 13
1.7　本章小結(jié) 15
第2章　NLP前置技術(shù)解析 16
2.1　搭建Python開發(fā)環(huán)境 16
2.1.1　Python的科學(xué)計算發(fā)行版——Anaconda 17
2.1.2　Anaconda的下載與安裝 19
2.2　正則表達(dá)式在NLP的基本應(yīng)用 21
2.2.1　匹配字符串 22
2.2.2　使用轉(zhuǎn)義符 26
2.2.3　抽取文本中的數(shù)字 26
2.3　Numpy使用詳解 27
2.3.1　創(chuàng)建數(shù)組 28
2.3.2　獲取Numpy中數(shù)組的維度 30
2.3.3　獲取本地數(shù)據(jù) 31
2.3.4　正確讀取數(shù)據(jù) 32
2.3.5　Numpy數(shù)組索引 32
2.3.6　切片 33
2.3.7　數(shù)組比較 33
2.3.8　替代值 34
2.3.9　數(shù)據(jù)類型轉(zhuǎn)換 36
2.3.10　Numpy的統(tǒng)計計算方法 36
2.4　本章小結(jié) 37
第3章　中文分詞技術(shù) 38
3.1　中文分詞簡介 38
3.2　規(guī)則分詞 39
3.2.1　正向最大匹配法 39
3.2.2　逆向最大匹配法 40
3.2.3　雙向最大匹配法 41
3.3　統(tǒng)計分詞 42
3.3.1　語言模型 43
3.3.2　HMM模型 44
3.3.3　其他統(tǒng)計分詞算法 52
3.4　混合分詞 52
3.5　中文分詞工具——Jieba 53
3.5.1　Jieba的三種分詞模式 54
3.5.2　實戰(zhàn)之高頻詞提取 55
3.6　本章小結(jié) 58
第4章　詞性標(biāo)注與命名實體識別 59
4.1　詞性標(biāo)注 59
4.1.1　詞性標(biāo)注簡介 59
4.1.2　詞性標(biāo)注規(guī)范 60
4.1.3　Jieba分詞中的詞性標(biāo)注 61
4.2　命名實體識別 63
4.2.1　命名實體識別簡介 63
4.2.2　基于條件隨機(jī)場的命名實體識別 65
4.2.3　實戰(zhàn)一：日期識別 69
4.2.4　實戰(zhàn)二：地名識別 75
4.3　總結(jié) 84
第5章　關(guān)鍵詞提取算法 85
5.1　關(guān)鍵詞提取技術(shù)概述 85
5.2　關(guān)鍵詞提取算法TF/IDF算法 86
5.3　TextRank算法 88
5.4　LSA/LSI/LDA算法 91
5.4.1　LSA/LSI算法 93
5.4.2　LDA算法 94
5.5　實戰(zhàn)提取文本關(guān)鍵詞 95
5.6　本章小結(jié) 105
第6章　句法分析 106
6.1　句法分析概述 106
6.2　句法分析的數(shù)據(jù)集與評測方法 107
6.2.1　句法分析的數(shù)據(jù)集 108
6.2.2　句法分析的評測方法 109
6.3　句法分析的常用方法 109
6.3.1　基于PCFG的句法分析 110
6.3.2　基于最大間隔馬爾可夫網(wǎng)絡(luò)的句法分析 112
6.3.3　基于CRF的句法分析 113
6.3.4　基于移進(jìn)–歸約的句法分析模型 113
6.4　使用Stanford Parser的PCFG算法進(jìn)行句法分析 115
6.4.1　Stanford Parser 115
6.4.2　基于PCFG的中文句法分析實戰(zhàn) 116
6.5　本章小結(jié) 119
第7章　文本向量化 120
7.1　文本向量化概述 120
7.2　向量化算法word2vec 121
7.2.1　神經(jīng)網(wǎng)絡(luò)語言模型 122
7.2.2　C&W模型 124
7.2.3　CBOW模型和Skip-gram模型 125
7.3　向量化算法doc2vec/str2vec 127
7.4　案例：將網(wǎng)頁文本向量化 129
7.4.1　詞向量的訓(xùn)練 129
7.4.2　段落向量的訓(xùn)練 133
7.4.3　利用word2vec和doc2vec計算網(wǎng)頁相似度 134
7.5　本章小結(jié) 139
第8章　情感分析技術(shù) 140
8.1　情感分析的應(yīng)用 141
8.2　情感分析的基本方法 142
8.2.1　詞法分析 143
8.2.2　機(jī)器學(xué)習(xí)方法 144
8.2.3　混合分析 144
8.3　實戰(zhàn)電影評論情感分析 145
8.3.1　卷積神經(jīng)網(wǎng)絡(luò) 146
8.3.2　循環(huán)神經(jīng)網(wǎng)絡(luò) 147
8.3.3　長短時記憶網(wǎng)絡(luò) 148
8.3.4　載入數(shù)據(jù) 150
8.3.5　輔助函數(shù) 154
8.3.6　模型設(shè)置 155
8.3.7　調(diào)參配置 158
8.3.8　訓(xùn)練過程 159
8.4　本章小結(jié) 159
第9章　NLP中用到的機(jī)器學(xué)習(xí)算法 160
9.1　簡介 160
9.1.1　機(jī)器學(xué)習(xí)訓(xùn)練的要素 161
9.1.2　機(jī)器學(xué)習(xí)的組成部分 162
9.2　幾種常用的機(jī)器學(xué)習(xí)方法 166
9.2.1　文本分類 166
9.2.2　特征提取 168
9.2.3　標(biāo)注 169
9.2.4　搜索與排序 170
9.2.5　推薦系統(tǒng) 170
9.2.6　序列學(xué)習(xí) 172
9.3　分類器方法 173
9.3.1　樸素貝葉斯Naive Bayesian 173
9.3.2　邏輯回歸 174
9.3.3　支持向量機(jī) 175
9.4　無監(jiān)督學(xué)習(xí)的文本聚類 177
9.5　文本分類實戰(zhàn)：中文垃圾郵件分類 180
9.5.1　實現(xiàn)代碼 180
9.5.2　評價指標(biāo) 187
9.6　文本聚類實戰(zhàn)：用K-means對豆瓣讀書數(shù)據(jù)聚類 190
9.7　本章小結(jié) 194
第10章　基于深度學(xué)習(xí)的NLP算法 195
10.1　深度學(xué)習(xí)概述 195
10.1.1　神經(jīng)元模型 196
10.1.2　激活函數(shù) 197
10.1.3　感知機(jī)與多層網(wǎng)絡(luò) 198
10.2　神經(jīng)網(wǎng)絡(luò)模型 201
10.3　多輸出層模型 203
10.4　反向傳播算法 204
10.5　最優(yōu)化算法 208
10.5.1　梯度下降 208
10.5.2　隨機(jī)梯度下降 209
10.5.3　批量梯度下降 210
10.6　丟棄法 211
10.7　激活函數(shù) 211
10.7.1　tanh函數(shù) 212
10.7.2　ReLU函數(shù) 212
10.8　實現(xiàn)BP算法 213
10.9　詞嵌入算法 216
10.9.1　詞向量 217
10.9.2　word2vec簡介 217
10.9.3　詞向量模型 220
10.9.4　CBOW和Skip-gram模型 222
10.1