Spark數(shù)據(jù)分析：基于Python語言（英文版）

定　價(jià)：￥79.00

作　者：	[澳] 杰夫瑞·艾文（Jeffrey Aven）著
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：	經(jīng)典原版書庫
標(biāo)　簽：	暫缺

購買這本書可以去

京東 (￥79.00)

ISBN：	9787111620037	出版時(shí)間：	2019-03-01	包裝：	平裝
開本：	16開	頁數(shù)：	277	字?jǐn)?shù)：

內(nèi)容簡介

　　本書重點(diǎn)關(guān)注Spark項(xiàng)目的基本知識(shí)，從Spark核心開始，然后拓展到各種Spark擴(kuò)展、Spark相關(guān)項(xiàng)目、Spark子項(xiàng)目，以及Spark所處的豐富的生態(tài)系統(tǒng)里各種別的開源技術(shù)，比如Hadoop、Kafka、Cassandra等。

作者簡介

暫缺《Spark數(shù)據(jù)分析：基于Python語言（英文版）》作者簡介

圖書目錄

第一部分　Spark基礎(chǔ)
第1章　大數(shù)據(jù)、Hadoop、Spark介紹3
1.1　大數(shù)據(jù)、分布式計(jì)算、Hadoop簡介3
1.1.1　大數(shù)據(jù)與Hadoop簡史4
1.1.2　Hadoop詳解5
1.2　Apache Spark簡介11
1.2.1　Apache Spark背景11
1.2.2　Spark的用途12
1.2.3　Spark編程接口12
1.2.4　Spark程序的提交類型12
1.2.5　Spark應(yīng)用程序的輸入輸出類型14
1.2.6　Spark中的RDD14
1.2.7　Spark與Hadoop14
1.3　Python函數(shù)式編程15
1.3.1　Python函數(shù)式編程用到的數(shù)據(jù)結(jié)構(gòu)15
1.3.2　Python對象序列化18
1.3.3　Python函數(shù)式編程基礎(chǔ)21
1.4　本章小結(jié)23
第2章　部署Spark25
2.1　Spark部署模式25
2.1.1　本地模式26
2.1.2　Spark獨(dú)立集群26
2.1.3　基于YARN運(yùn)行Spark27
2.1.4　基于Mesos運(yùn)行Spark28
2.2　準(zhǔn)備安裝Spark28
2.3　獲取Spark29
2.4　在Linux或Mac OS X上安裝Spark30
2.5　在Windows上安裝Spark32
2.6　探索Spark安裝目錄34
2.7　部署多節(jié)點(diǎn)的Spark獨(dú)立集群35
2.8　在云上部署Spark37
2.8.1　AWS37
2.8.2　GCP39
2.8.3　Databricks40
2.9　本章小結(jié)41
第3章　理解Spark集群架構(gòu)43
3.1　Spark應(yīng)用中的術(shù)語43
3.1.1　Spark驅(qū)動(dòng)器44
3.1.2　Spark工作節(jié)點(diǎn)與執(zhí)行器47
3.1.3　Spark主進(jìn)程與集群管理器49
3.2　使用獨(dú)立集群的Spark應(yīng)用51
3.3　在YARN上運(yùn)行Spark應(yīng)用的部署模式51
3.3.1　客戶端模式52
3.3.2　集群模式53
3.3.3　回顧本地模式54
3.4　本章小結(jié)55
第4章　Spark編程基礎(chǔ)57
4.1　RDD簡介57
4.2　加載數(shù)據(jù)到RDD59
4.2.1　從文件創(chuàng)建RDD59
4.2.2　從文本文件創(chuàng)建RDD的方法61
4.2.3　從對象文件創(chuàng)建RDD64
4.2.4　從數(shù)據(jù)源創(chuàng)建RDD64
4.2.5　從JSON文件創(chuàng)建RDD67
4.2.6　通過編程創(chuàng)建RDD69
4.3　RDD操作70
4.3.1　RDD核心概念70
4.3.2　基本的RDD轉(zhuǎn)化操作75
4.3.3　基本的RDD行動(dòng)操作79
4.3.4　鍵值對RDD的轉(zhuǎn)化操作83
4.3.5　MapReduce與單詞計(jì)數(shù)練習(xí)90
4.3.6　連接操作93
4.3.7　在Spark中連接數(shù)據(jù)集98
4.3.8　集合操作101
4.3.9　數(shù)值型RDD的操作103
4.4　本章小結(jié)106
第二部分　基礎(chǔ)拓展
第5章　Spark核心API高級編程109
5.1　Spark中的共享變量109
5.1.1　廣播變量110
5.1.2　累加器114
5.1.3　練習(xí)：使用廣播變量和累加器117
5.2　Spark中的數(shù)據(jù)分區(qū)118
5.2.1　分區(qū)概述118
5.2.2　掌控分區(qū)119
5.2.3　重分區(qū)函數(shù)121
5.2.4　針對分區(qū)的API方法123
5.3　RDD的存儲(chǔ)選項(xiàng)125
5.3.1　回顧RDD譜系125
5.3.2　RDD存儲(chǔ)選項(xiàng)126
5.3.3　RDD緩存129
5.3.4　持久化RDD129
5.3.5　選擇何時(shí)持久化或緩存RDD132
5.3.6　保存RDD檢查點(diǎn)132
5.3.7　練習(xí)：保存RDD檢查點(diǎn)134
5.4　使用外部程序處理RDD136
5.5　使用Spark進(jìn)行數(shù)據(jù)采樣137
5.6　理解Spark應(yīng)用與集群配置139
5.6.1　Spark環(huán)境變量139
5.6.2　Spark配置屬性143
5.7　Spark優(yōu)化146
5.7.1　早過濾，勤過濾147
5.7.2　優(yōu)化滿足結(jié)合律的操作147
5.7.3　理解函數(shù)和閉包的影響149
5.7.4　收集數(shù)據(jù)的注意事項(xiàng)150
5.7.5　使用配置參數(shù)調(diào)節(jié)和優(yōu)化應(yīng)用150
5.7.6　避免低效的分區(qū)151
5.7.7 　應(yīng)用性能問題診斷153
5.8　本章小結(jié)157
第6章　使用Spark進(jìn)行SQL與NoSQL編程159
6.1　Spark SQL簡介159
6.1.1　Hive簡介160
6.1.2　Spark SQL架構(gòu)164
6.1.3　DataFrame入門166
6.1.4　使用DataFrame177
6.1.5　DataFrame緩存、持久化與重新分區(qū)185
6.1.6　保存DataFrame輸出186
6.1.7　訪問Spark SQL189
6.1.8　練習(xí)：使用Spark SQL192
6.2　在Spark中使用NoSQL系統(tǒng)193
6.2.1　NoSQL簡介194
6.2.2　在Spark中使用HBase195
6.2.3　練習(xí)：在Spark中使用HBase198
6.2.4　在Spark中使用Cassandra200
6.2.5　在Spark中使用DynamoDB202
6.2.6　其他NoSQL平臺(tái)204
6.3　本章小結(jié)204
第7章　使用Spark處理流數(shù)據(jù)與消息207
7.1　Spark Streaming簡介207
7.1.1　Spark Streaming架構(gòu)208
7.1.2　DStream簡介209
7.1.3　練習(xí)：Spark Streaming入門216
7.1.4　狀態(tài)操作217
7.1.5　滑動(dòng)窗口操作219
7.2　結(jié)構(gòu)化流處理221
7.2.1　結(jié)構(gòu)化流處理數(shù)據(jù)源222
7.2.2　結(jié)構(gòu)化流處理的數(shù)據(jù)輸出池223
7.2.3　輸出模式224
7.2.4　結(jié)構(gòu)化流處理操作225
7.3　在Spark中使用消息系統(tǒng)226
7.3.1　Apache Kafka227
7.3.2　練習(xí)：在Spark中使用Kafka232
7.3.3　亞馬遜Kinesis235
7.4　本章小結(jié)238
第8章　Spark數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)簡介241
8.1　Spark與R語言241
8.1.1　R語言簡介242
8.1.2　通過R語言使用Spark248
8.1.3　練習(xí)：在RStudio中使用SparkR255
8.2　Spark機(jī)器學(xué)習(xí)257
8.2.1　機(jī)器學(xué)習(xí)基礎(chǔ)257
8.2.2　使用Spark MLlib進(jìn)行機(jī)器學(xué)習(xí)260
8.2.3　練習(xí)：使用Spark MLlib實(shí)現(xiàn)推薦器265
8.2.4　使用Spark ML進(jìn)行機(jī)器學(xué)習(xí)269
8.3　利用筆記本使用Spark273
8.3.1　利用Jupyter（IPython）筆記本使用Spark273
8.3.2　利用Apache Zeppelin筆記本使用Spark276
8.4　本章小結(jié)277

Contents
I: Spark Foundations
1 Introducing Big Data, Hadoop, and Spark 3
Introduction to