注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計其他編程語言/工具O'Reilly Python文本分析

O'Reilly Python文本分析

O'Reilly Python文本分析

定 價:¥128.00

作 者: [美]延斯·阿爾布雷希特,[美]西達爾特·拉馬錢德蘭,[美]克里斯蒂安·溫克勒
出版社: 中國電力出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787519864446 出版時間: 2022-08-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  提取API與網(wǎng)頁的數(shù)據(jù)。統(tǒng)計分析和機器學(xué)習(xí)的文本數(shù)據(jù)預(yù)處理。機器學(xué)習(xí)分類、主題建模與摘要。解釋AI模型與分類的結(jié)果。利用單詞嵌入,探索及可視化語義相似性。分析產(chǎn)品評論中的客戶情感。根據(jù)命名實體及其關(guān)系創(chuàng)建知識圖。

作者簡介

  Jens Albrecht是紐倫堡理工學(xué)院計算機科學(xué)系的全職教授。主要從事數(shù)據(jù)管理與分析領(lǐng)域的研究,尤其側(cè)重于文本分析。Sidharth Ramachandran負責(zé)領(lǐng)導(dǎo)一個數(shù)據(jù)科學(xué)家團隊,主要為消費品行業(yè)構(gòu)建數(shù)據(jù)產(chǎn)品。他擁有十多年電信、銀行以及市場營銷等領(lǐng)域軟件工程與數(shù)據(jù)科學(xué)的工作經(jīng)驗。Christian Winkler是一位數(shù)據(jù)科學(xué)家與和機器學(xué)習(xí)架構(gòu)師。他擁有理論物理學(xué)博士學(xué)位,在大數(shù)據(jù)與人工智能領(lǐng)域工作了20多年。

圖書目錄

目錄
前言 . 1
第1 章 洞悉文本數(shù)據(jù) 11
1.1 本章內(nèi)容概要 .11
1.2 探索性數(shù)據(jù)分析 12
1.3 數(shù)據(jù)集簡介 13
1.4 案例:使用Pandas 獲取數(shù)據(jù)概要 14
1.4.1 計算列的匯總統(tǒng)計結(jié)果 15
1.4.2 檢查缺少的數(shù)據(jù) 16
1.4.3 繪制值的分布圖 17
1.4.4 比較各個類別的分布 .18
1.4.5 可視化一段時間內(nèi)的變化 19
1.5 案例:構(gòu)建簡單的文本預(yù)處理流水線 21
1.5.1 使用正則表達式分詞 .21
1.5.2 刪除停用詞 .22
1.5.3 通過一行代碼處理流水線 24
1.6 詞頻分析案例 .26
1.6.1 案例:使用Counter 統(tǒng)計單詞個數(shù) 26
1.6.2 案例:創(chuàng)建詞頻圖 29
1.6.3 案例:創(chuàng)建詞云 30
1.6.4 案例:TF-IDF 排名 32
1.7 案例:查找上下文關(guān)鍵字 .35
1.8 案例:n 元語法分析 37
1.9 案例:比較不同時間段和類別的詞頻 40
1.9.1 創(chuàng)建詞頻時間表 40
1.9.2 創(chuàng)建詞頻熱圖 42
1.10 小結(jié) 44
第2 章 利用API 提取文本 45
2.1 本章內(nèi)容概要 .45
2.2 應(yīng)用程序編程接口 45
2.3 案例:使用requests 模塊通過API 提取數(shù)據(jù) .47
2.3.1 分頁 52
2.3.2 速率限制53
2.4 案例:使用Tweepy 提取推特數(shù)據(jù) 57
2.4.1 獲取憑證58
2.4.2 安裝與配置Tweepy 59
2.4.3 通過Search API 提取數(shù)據(jù) 60
2.4.4 從用戶的時間線中提取數(shù)據(jù) 64
2.4.5 通過流API 提取數(shù)據(jù) 66
2.5 小結(jié) .69
第3 章 網(wǎng)頁抓取與數(shù)據(jù)提取 71
3.1 本章內(nèi)容概要 .71
3.2 抓取網(wǎng)頁與提取數(shù)據(jù) 72
3.3 路透社新聞存檔簡介 73
3.4 URL 生成 75
3.5 案例:下載和解讀robots.txt 76
3.6 案例:從sitemap.xml 中尋找URL .77
3.7 案例:通過RSS 查找URL 79
3.8 下載數(shù)據(jù) 81
3.9 案例:使用Python 下載HTML 頁面 .82
3.10 案例:利用wget 下載HTML 頁面 83
3.11 提取半結(jié)構(gòu)化數(shù)據(jù) .84
3.12 案例:通過正則表達式提取數(shù)據(jù) 85
3.13 案例:使用HTML 解析器提取數(shù)據(jù) 86
3.14 案例:爬蟲 94
3.14.1 案例介紹 94
3.14.2 錯誤處理與生產(chǎn)級質(zhì)量的軟件 97
3.15 基于密度的文本提取 98
3.15.1 利用Readability 讀取路透社的內(nèi)容 98
3.15.2 總結(jié)基于密度的文本提取100
3.16 一體化解決方案 100
3.17 案例:使用Scrapy 抓取路透社的存檔 .101
3.18 爬蟲面臨的難題 103
3.19 總結(jié)和建議 .104
第4 章 準(zhǔn)備統(tǒng)計和機器學(xué)習(xí)的文本數(shù)據(jù) 105
4.1 本章內(nèi)容概要 105
4.2 數(shù)據(jù)預(yù)處理流水線 .106
4.3 數(shù)據(jù)集介紹:Reddit Self-Posts 107
4.3.1 將數(shù)據(jù)加載到Pandas .107
4.3.2 案例:標(biāo)準(zhǔn)化屬性名稱 .107
4.3.3 保存和加載數(shù)據(jù)框 109
4.4 清理文本數(shù)據(jù) 110
4.4.1 案例:使用正則表達式識別噪聲 . 111
4.4.2 案例:使用正則表達式剔除噪聲 . 113
4.4.3 案例:使用textacy 規(guī)范化字符 115
4.4.4 案例:使用textacy 根據(jù)模式遮擋數(shù)據(jù) . 116
4.5 分詞 118
4.5.1 案例:使用正則表達式分詞 118
4.5.2 NLTK 分詞 120
4.5.3 分詞建議120
4.6 spaCy 的語言處理 .121
4.6.1 實例化流水線 .122
4.6.2 處理文本123
4.6.3 案例:自定義分詞 125
4.6.4 案例:處理停用詞 127
4.6.5 案例:根據(jù)詞性提取詞元 128
4.6.6 案例:提取名詞短語 131
4.6.7 案例:提取命名實體 132
4.7 大型數(shù)據(jù)集的特征提取 134
4.7.1 案例:創(chuàng)建一個一體化函數(shù) 134
4.7.2 案例:使用spaCy 處理大型數(shù)據(jù)集 135
4.7.3 持久地保存結(jié)果 137
4.7.4 有關(guān)執(zhí)行時間的注意事項 137
4.8 補充說明 .138
4.8.1 語言檢測138
4.8.2 拼寫檢查139
4.8.3 分詞規(guī)范化 139
4.9 小結(jié)和建議 139
第5 章 特征工程與句法相似性 141
5.1 本章內(nèi)容概要 141
5.2 實驗數(shù)據(jù)集 142
5.3 案例:構(gòu)建自己的向量化器 .143
5.3.1 枚舉詞匯表 143
5.3.2 向量化文檔 144
5.3.3 文檔詞條矩陣 .146
5.3.4 相似性矩陣 147
5.4 詞袋模型 .149
5.4.1 案例:使用scikit-learn 的CountVectorizer .149
5.4.2 案例:計算相似性 151
5.5 TF-IDF 模型 .153
5.5.1 利用TfidfTransformer 優(yōu)化文檔向量 .153
5.5.2 介紹ABC 數(shù)據(jù)集 .154
5.5.3 案例:降低特征維度 156
5.5.4 案例:通過具體化改進特征 159
5.5.5 案例:使用詞元向量化文本 159
5.5.6 案例:限定單詞類型 160
5.5.7 案例:刪除最常見的單詞 161
5.5.8 案例:通過n 元語法添加上下文 .162
5.6 ABC 數(shù)據(jù)集的句法相似性 .164
5.6.1 案例:查找與杜撰的標(biāo)題最相似的標(biāo)題 164
5.6.2 案例:查找大型語料庫中最相似的兩個文檔 .165
5.6.3 案例:查找相關(guān)詞 169
5.6.4 有關(guān)語法相似性分析等運行時間較長的程序的提示 .171
5.7 小結(jié) 171
第6 章 文本分類算法 173
6.1 本章內(nèi)容概要 174
6.2 Java 開發(fā)工具錯誤數(shù)據(jù)集介紹 174
6.3 案例:構(gòu)建文本分類系統(tǒng) 178
6.3.1 第一步:準(zhǔn)備數(shù)據(jù) 180
6.3.2 第二步:分割訓(xùn)練與測試數(shù)據(jù)集 .181
6.3.3 第三步:訓(xùn)練機器學(xué)習(xí)模型 183
6.3.4 第四步:模型評估 186
6.4 文本分類的最終解決方案 193
6.5 案例:利用交叉驗證來評估實際的準(zhǔn)確率 196
6.6 案例:通過網(wǎng)格搜索微調(diào)超參數(shù) 198
6.7 案例回顧與小結(jié) .200
6.8 小結(jié) 204
6.9 補充閱讀 .204
第7 章 解釋文本分類器 . 207
7.1 本章內(nèi)容概要 208
7.2 案例:使用預(yù)測概率確定分類置信度 .208
7.3 案例:衡量預(yù)測模型中特征的重要性 .213
7.4 案例:使用LIME 解釋分類結(jié)果217
7.5 案例:使用ELI5 介紹分類結(jié)果 .223
7.6 案例:使用Anchor 解釋分類結(jié)果 226
7.6.1 使用遮蓋后的單詞分布 .226
7.6.2 使用實際的單詞 229
7.7 小結(jié) 231
第8 章 非監(jiān)督學(xué)習(xí):主題建模與聚類 233
8.1 本章內(nèi)容概要 234
8.2 數(shù)據(jù)集:聯(lián)合國一般性辯論 .234
8.2.1 查看語料庫的統(tǒng)計信息 .234
8.2.2 準(zhǔn)備工作236
8.3 非負矩陣分解(NMF) 237
8.3.1 案例:使用NMF 創(chuàng)建文檔的主題模型 238
8.3.2 案例:使用NMF 創(chuàng)建段落的主題模型 240
8.4 潛在語義分析/ 索引 .241
8.5 隱含狄利克雷分布 .245
8.5.1 案例:使用LDA 生成段落的主題模型 .245
8.5.2 案例:可視化LDA 的結(jié)果 .247
8.6 案例:使用詞云來展示和比較主題模型 248
8.7 案例:計算文檔的主題分布以及隨時間的變化 .252
8.8 Gensim 主題建模 254
8.8.1 案例:Gensim 的數(shù)據(jù)準(zhǔn)備 254
8.8.2 案例:利用Gensim 執(zhí)行非負矩陣分解 255
8.8.3 案例:利用Gensim 執(zhí)行LDA 256
8.8.4 案例:計算連貫分數(shù) 257
8.8.5 案例:最佳主題數(shù)量 259
8.8.6 案例:使用Gensim 創(chuàng)建層次狄利克雷過程 261
8.9 案例:使用聚集來挖掘文本數(shù)據(jù)的結(jié)構(gòu) 263
8.10 進一步的想法 267
8.11 建議 267
8.12 小結(jié) 267
第9 章 文本摘要 269
9.1 本章內(nèi)容概要 269
9.2 文本摘要 .269
9.2.1 提取式摘要 271
9.2.2 數(shù)據(jù)的預(yù)處理 .271
9.3 案例:通過主題表示提取文本的摘要 .272
9.3.1 通過TF-IDF 識別重要的單詞 273
9.3.2 LSA 算法 274
9.4 案例:通過指示表示總結(jié)文本 277
9.5 測量文本摘要方法的表現(xiàn) 282
9.6 案例:使用機器學(xué)習(xí)生成文本摘要 285
9.6.1 第一步:創(chuàng)建目標(biāo)標(biāo)簽 .286
9.6.2 第二步:添加特征來輔助模型預(yù)測.289
9.6.3 第三步:構(gòu)建機器學(xué)習(xí)模型 290
9.7 小結(jié) 292
9.8 補充閱讀 .293
第10 章 通過單詞嵌入探索語義關(guān)系 . 295
10.1 本章內(nèi)容概要 295
10.2 語義嵌入 296
10.2.1 單詞嵌入 .297
10.2.2 單詞嵌入的類比推理 298
10.2.3 嵌入的類型 298
10.3 案例:預(yù)訓(xùn)練模型的相似性查詢 301
10.3.1 加載預(yù)訓(xùn)練模型 .301
10.3.2 相似性查詢 302
10.4 案例:訓(xùn)練與評估自己的嵌入 .305
10.4.1 數(shù)據(jù)準(zhǔn)備 .306
10.4.2 案例:使用Gensim 訓(xùn)練模型 .309
10.4.3 案例:評估不同的模型 310
10.5 案例:可視化嵌入 313
10.5.1 案例:降維 314
10.5.2 案例:使用TensorFlow 的嵌入投影 318
10.5.3 案例:構(gòu)建相似樹 .319
10.6 小結(jié) 322
10.7 補充閱讀 323
第11 章 文本數(shù)據(jù)的情感分析 325
11.1 本章內(nèi)容概要 326
11.2 情感分析 326
11.3 亞馬遜客戶評論數(shù)據(jù)集.327
11.4 案例:基于詞典的情感分析 329
11.4.1 Bing Liu lexicon 330
11.4.2 基于詞典的方法的缺點 332
11.5 監(jiān)督學(xué)習(xí)方法 333
11.6 案例:向量化文本數(shù)據(jù)并應(yīng)用監(jiān)督機器學(xué)習(xí)算法334
11.6.1 第一步:數(shù)據(jù)準(zhǔn)備 .334
11.6.2 第二步:分割訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集 335
11.6.3 第三步:文本向量化 335
11.6.4 第四步:訓(xùn)練機器學(xué)習(xí)模型 .336
11.7 深度學(xué)習(xí)的預(yù)訓(xùn)練語言模型 338
11.8 案例:遷移學(xué)習(xí)技術(shù)與預(yù)訓(xùn)練語言模型 .340
11.8.1 第一步:加載模型與分詞 341
11.8.2 第二步:訓(xùn)練模型 .345
11.8.3 第三步:模型評估 .349
11.9 小結(jié) 351
11.10 補充閱讀 351
第12 章 知識圖譜 . 353
12.1 本章內(nèi)容概要 354
12.2 知識圖譜 354
12.3 數(shù)據(jù)集簡介 .356
12.4 識別命名實體 357
12.4.1 案例:基于規(guī)則的命名實體識別 360
12.4.2 案例:規(guī)范化命名實體 361
12.4.3 合并實體詞語 363
12.5 共指消解 363
12.5.1 案例:spaCy 的詞語擴展 365
12.5.2 案例:別名消解 .366
12.5.3 案例:消解名稱的多樣性367
12.5.4 案例:利用NeuralCoref 執(zhí)行回指消解 369
12.5.5 命名規(guī)范化 372
12.5.6 實體鏈接 .373
12.6 案例:創(chuàng)建共現(xiàn)圖 374
12.6.1 從文檔中提取共現(xiàn) .375
12.6.2 使用Gephi 可視化共現(xiàn)圖 377
12.7 關(guān)系提取 378
12.7.1 案例:通過短語匹配提取關(guān)系 378
12.7.2 案例:使用依存樹提取關(guān)系 .381
12.8 創(chuàng)建知識圖 .385
12.9 小結(jié) 388
12.10 補充閱讀 389
第13 章 文本分析的生產(chǎn)應(yīng)用 391
13.1 本章內(nèi)容概要 391
13.2 利用Conda 創(chuàng)建可復(fù)制的Python 環(huán)境 392
13.3 案例:通過容器創(chuàng)建可復(fù)制的環(huán)境 396
13.4 案例:創(chuàng)建文本分析模型的REST API 404
13.5 案例:通過云服務(wù)部署和擴展API 411
13.6 案例:版本自動升級與自動部署構(gòu)建 416
13.7 小結(jié) 420
13.8 補充閱讀 421

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號