注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能Spark機(jī)器學(xué)習(xí) 第2版

Spark機(jī)器學(xué)習(xí) 第2版

Spark機(jī)器學(xué)習(xí) 第2版

定 價(jià):¥99.00

作 者: [印] 拉結(jié)帝普·杜瓦(Rajdeep Dua),[印] 曼普利特·辛格·古特拉(Manpreet,Singh,Ghotra),[南非] 尼克·彭特里思(Nick Pentreath) 著,蔡立宇,黃
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書(shū)可以去


ISBN: 9787115497833 出版時(shí)間: 2018-11-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 375 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)結(jié)合案例研究講解Spark 在機(jī)器學(xué)習(xí)中的應(yīng)用,并介紹如何從各種公開(kāi)渠道獲取用于機(jī)器學(xué)**統(tǒng)的數(shù)據(jù)。內(nèi)容涵蓋推薦系統(tǒng)、回歸、聚類、降維等經(jīng)典機(jī)器學(xué)習(xí)算法及其實(shí)際應(yīng)用。第2版新增了有關(guān)機(jī)器學(xué)習(xí)數(shù)學(xué)基礎(chǔ)以及Spark ML Pipeline API 的章節(jié),內(nèi)容更加系統(tǒng)、全面、與時(shí)俱進(jìn)。

作者簡(jiǎn)介

  拉結(jié)帝普·杜瓦(Rajdeep Dua)Salesforce公司工程主管,致力于打造云計(jì)算和人工智能團(tuán)隊(duì)。曾參與Google的大數(shù)據(jù)分析工具BigQuery的宣傳團(tuán)隊(duì)。在云計(jì)算、大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)領(lǐng)域有近20年的經(jīng)驗(yàn)。曼普利特·辛格·古特拉(Manpreet Singh Ghotra)Salesforce公司軟件工程主管,擁有十余年軟件開(kāi)發(fā)經(jīng)驗(yàn),目前致力于開(kāi)發(fā)基于Apache Spark的機(jī)器學(xué)**臺(tái)。尼克·彭特里思(Nick Pentreath)IBM開(kāi)源數(shù)據(jù)及人工智能技術(shù)中心首席工程師,大數(shù)據(jù)及機(jī)器學(xué)習(xí)公司Graphflow聯(lián)合創(chuàng)始人,Spark項(xiàng)目管理委員會(huì)成員?!咀g者簡(jiǎn)介】蔡立宇曾從事自然語(yǔ)言處理和圖數(shù)據(jù)分析相關(guān)工作,現(xiàn)提供數(shù)據(jù)分析相關(guān)的獨(dú)立咨詢和開(kāi)發(fā)服務(wù)。坐標(biāo)深圳。

圖書(shū)目錄

第 1章 Spark的環(huán)境搭建與運(yùn)行 1
1.1 Spark的本地安裝與配置 2
1.2 Spark集群 3
1.3 Spark編程模型 4
1.3.1 SparkContext類與SparkConf類 4
1.3.2 SparkSession 5
1.3.3 Spark shell 6
1.3.4 彈性分布式數(shù)據(jù)集 8
1.3.5 廣播變量和累加器 12
1.4 SchemaRDD 13
1.5 Spark data frame 13
1.6 Spark Scala編程入門 14
1.7 Spark Java編程入門 17
1.8 Spark Python編程入門 19
1.9 Spark R編程入門 21
1.10 在Amazon EC2上運(yùn)行Spark 23
1.11 在Amazon Elastic Map Reduce上配置并運(yùn)行Spark 28
1.12 Spark用戶界面 31
1.13 Spark所支持的機(jī)器學(xué)習(xí)算法 32
1.14 Spark ML的優(yōu)勢(shì) 36
1.15 在Google Compute Engine上用Dataproc構(gòu)建Spark集群 38
1.15.1 Hadoop和Spark版本 38
1.15.2 創(chuàng)建集群 38
1.15.3 提交任務(wù) 41
1.16 小結(jié) 43
第 2章 機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ) 44
2.1 線性代數(shù) 45
2.1.1 配置IntelliJ Scala環(huán)境 45
2.1.2 配置命令行Scala環(huán)境 47
2.1.3 域 48
2.1.4 矩陣 54
2.1.5 函數(shù) 64
2.2 梯度下降 68
2.3 先驗(yàn)概率、似然和后驗(yàn)概率 69
2.4 微積分 69
2.4.1 可微微分 69
2.4.2 積分 70
2.4.3 拉格朗日乘子 70
2.5 可視化 71
2.6 小結(jié) 72
第3章 機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì) 73
3.1 機(jī)器學(xué)習(xí)是什么 73
3.2 MovieStream介紹 74
3.3 機(jī)器學(xué)習(xí)系統(tǒng)商業(yè)用例 75
3.3.1 個(gè)性化 75
3.3.2 目標(biāo)營(yíng)銷和客戶細(xì)分 76
3.3.3 預(yù)測(cè)建模與分析 76
3.4 機(jī)器學(xué)習(xí)模型的種類 76
3.5 數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)系統(tǒng)的組成 77
3.5.1 數(shù)據(jù)獲取與存儲(chǔ) 77
3.5.2 數(shù)據(jù)清理與轉(zhuǎn)換 78
3.5.3 模型訓(xùn)練與測(cè)試循環(huán) 79
3.5.4 模型部署與整合 79
3.5.5 模型監(jiān)控與反饋 80
3.5.6 批處理或?qū)崟r(shí)方案的選擇 80
3.5.7 Spark數(shù)據(jù)管道 81
3.6 機(jī)器學(xué)習(xí)系統(tǒng)架構(gòu) 82
3.7 Spark MLlib 83
3.8 Spark ML的性能提升 83
3.9 MLlib支持算法的比較 85
3.9.1 分類 85
3.9.2 聚類 85
3.9.3 回歸 85
3.10 MLlib支持的函數(shù)和開(kāi)發(fā)者API 86
3.11 MLlib愿景 87
3.12 MLlib版本的變遷 87
3.13 小結(jié) 88
第4章 Spark上數(shù)據(jù)的獲取、處理與準(zhǔn)備 89
4.1 獲取公開(kāi)數(shù)據(jù)集 90
4.2 探索與可視化數(shù)據(jù) 92
4.2.1 探索用戶數(shù)據(jù) 94
4.2.2 探索電影數(shù)據(jù) 102
4.2.3 探索評(píng)級(jí)數(shù)據(jù) 104
4.3 數(shù)據(jù)的處理與轉(zhuǎn)換 109
4.4 從數(shù)據(jù)中提取有用特征 112
4.4.1 數(shù)值特征 112
4.4.2 類別特征 113
4.4.3 派生特征 114
4.4.4 文本特征 116
4.4.5 正則化特征 121
4.4.6 用軟件包提取特征 123
4.5 小結(jié) 126
第5章 Spark 構(gòu)建推薦引擎 127
5.1 推薦模型的分類 128
5.1.1 基于內(nèi)容的過(guò)濾 128
5.1.2 協(xié)同過(guò)濾 128
5.1.3 矩陣分解 130
5.2 提取有效特征 139
5.3 訓(xùn)練推薦模型 140
5.3.1 使用MovieLens 100k數(shù)據(jù)集訓(xùn)練模型 141
5.3.2 使用隱式反饋數(shù)據(jù)訓(xùn)練模型 143
5.4 使用推薦模型 143
5.4.1 ALS模型推薦 144
5.4.2 用戶推薦 145
5.4.3 物品推薦 148
5.5 推薦模型效果的評(píng)估 152
5.5.1 ALS模型評(píng)估 152
5.5.2 均方差 154
5.5.3 K值平均準(zhǔn)確率 156
5.5.4 使用MLlib內(nèi)置的評(píng)估函數(shù) 159
5.6 FP-Growth算法 161
5.6.1 FP-Growth的基本例子 161
5.6.2 FP-Growth在MovieLens數(shù)據(jù)集上的實(shí)踐 163
5.7 小結(jié) 164
第6章 Spark構(gòu)建分類模型 165
6.1 分類模型的種類 167
6.1.1 線性模型 167
6.1.2 樸素貝葉斯模型 177
6.1.3 決策樹(shù) 180
6.1.4 樹(shù)集成模型 183
6.2 從數(shù)據(jù)中抽取合適的特征 188
6.3 訓(xùn)練分類模型 189
6.4 使用分類模型 190
6.4.1 在Kaggle/StumbleUpon evergreen數(shù)據(jù)集上進(jìn)行預(yù)測(cè) 191
6.4.2 評(píng)估分類模型的性能 191
6.4.3 預(yù)測(cè)的正確率和錯(cuò)誤率 191
6.4.4 準(zhǔn)確率和召回率 193
6.4.5 ROC曲線和AUC 194
6.5 改進(jìn)模型性能以及參數(shù)調(diào)優(yōu) 196
6.5.1 特征標(biāo)準(zhǔn)化 197
6.5.2 其他特征 199
6.5.3 使用正確的數(shù)據(jù)格式 202
6.5.4 模型參數(shù)調(diào)優(yōu) 203
6.6 小結(jié) 211
第7章 Spark構(gòu)建回歸模型 212
7.1 回歸模型的種類 212
7.1.1 最小二乘回歸 213
7.1.2 決策樹(shù)回歸 214
7.2 評(píng)估回歸模型的性能 215
7.2.1 均方誤差和均方根誤差 215
7.2.2 平均絕對(duì)誤差 215
7.2.3 均方根對(duì)數(shù)誤差 216
7.2.4 R-平方系數(shù) 216
7.3 從數(shù)據(jù)中抽取合適的特征 216
7.4 回歸模型的訓(xùn)練和應(yīng)用 220
7.4.1 BikeSharingExecutor 220
7.4.2 在bike sharing數(shù)據(jù)集上訓(xùn)練回歸模型 221
7.4.3 決策樹(shù)集成 229
7.5 改進(jìn)模型性能和參數(shù)調(diào)優(yōu) 235
7.5.1 變換目標(biāo)變量 235
7.5.2 模型參數(shù)調(diào)優(yōu) 242
7.6 小結(jié) 256
第8章 Spark構(gòu)建聚類模型 257
8.1 聚類模型的類型 258
8.1.1 K-均值聚類 258
8.1.2 混合模型 262
8.1.3 層次聚類 262
8.2 從數(shù)據(jù)中提取正確的特征 262
8.3 K-均值訓(xùn)練聚類模型 265
8.3.1 訓(xùn)練K-均值聚類模型 266
8.3.2 用聚類模型來(lái)預(yù)測(cè) 267
8.3.3 解讀預(yù)測(cè)結(jié)果 267
8.4 評(píng)估聚類模型的性能 271
8.4.1 內(nèi)部評(píng)估指標(biāo) 271
8.4.2 外部評(píng)估指標(biāo) 272
8.4.3 在MovieLens數(shù)據(jù)集上計(jì)算性能指標(biāo) 272
8.4.4 迭代次數(shù)對(duì)WSSSE的影響 272
8.5 二分K-均值 275
8.5.1 二分K-均值——訓(xùn)練一個(gè)聚類模型 276
8.5.2 WSSSE和迭代次數(shù) 280
8.6 高斯混合模型 283
8.6.1 GMM聚類分析 283
8.6.2 可視化GMM類簇分布 285
8.6.3 迭代次數(shù)對(duì)類簇邊界的影響 286
8.7 小結(jié) 287
第9章 Spark應(yīng)用于數(shù)據(jù)降維 288
9.1 降維方法的種類 289
9.1.1 主成分分析 289
9.1.2 奇異值分解 289
9.1.3 和矩陣分解的關(guān)系 290
9.1.4 聚類作為降維的方法 290
9.2 從數(shù)據(jù)中抽取合適的特征 291
9.3 訓(xùn)練降維模型 299
9.4 使用降維模型 302
9.4.1 在LFW數(shù)據(jù)集上使用PCA投影數(shù)據(jù) 302
9.4.2 PCA和SVD模型的關(guān)系 303
9.5 評(píng)價(jià)降維模型 304
9.6 小結(jié) 307
第 10章 Spark高級(jí)文本處理技術(shù) 308
10.1 文本數(shù)據(jù)處理的特別之處 308
10.2 從數(shù)據(jù)中抽取合適的特征 309
10.2.1 詞加權(quán)表示 309
10.2.2 特征散列 310
10.2.3 從20 Newsgroups數(shù)據(jù)集中提取TF-IDF特征 311
10.3 使用TF-IDF 模型 324
10.3.1 20 Newsgroups數(shù)據(jù)集的文本相似度和TF-IDF特征 324
10.3.2 基于20 Newsgroups數(shù)據(jù)集使用TF-IDF訓(xùn)練文本分類器 326
10.4 評(píng)估文本處理技術(shù)的作用 328
10.5 Spark 2.0上的文本分類 329
10.6 Word2Vec模型 331
10.6.1 借助Spark MLlib訓(xùn)練Word2Vec模型 331
10.6.2 借助Spark ML訓(xùn)練Word2Vec模型 332
10.7 小結(jié) 334
第 11章 Spark Streaming實(shí)時(shí)機(jī)器學(xué)習(xí) 335
11.1 在線學(xué)習(xí) 335
11.2 流處理 336
11.2.1 Spark Streaming介紹 337
11.2.2 Spark Streaming緩存和容錯(cuò)機(jī)制 339
11.3 創(chuàng)建Spark Streaming應(yīng)用 340
11.3.1 消息生成器 341
11.3.2 創(chuàng)建簡(jiǎn)單的流處理程序 343
11.3.3 流式分析 346
11.3.4 有狀態(tài)的流計(jì)算 348
11.4 使用Spark Streaming進(jìn)行在線學(xué)習(xí) 349
11.4.1 流回歸 350
11.4.2 一個(gè)簡(jiǎn)單的流回歸程序 350
11.4.3 流式K-均值 354
11.5 在線模型評(píng)估 355
11.6 結(jié)構(gòu)化流 358
11.7 小結(jié) 359
第 12章 Spark ML Pipeline API 360
12.1 Pipeline簡(jiǎn)介 360
12.1.1 DataFrame 360
12.1.2 Pipeline組件 360
12.1.3 轉(zhuǎn)換器 361
12.1.4 評(píng)估器 361
12.2 Pipeline工作原理 363
12.3 Pipeline機(jī)器學(xué)習(xí)示例 367
12.4 小結(jié) 375

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)