注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)網(wǎng)絡(luò)與數(shù)據(jù)通信網(wǎng)絡(luò)服務(wù)Spark實(shí)時(shí)大數(shù)據(jù)分析:基于Spark Streaming框架

Spark實(shí)時(shí)大數(shù)據(jù)分析:基于Spark Streaming框架

Spark實(shí)時(shí)大數(shù)據(jù)分析:基于Spark Streaming框架

定 價(jià):¥89.00

作 者: (美)祖貝爾·納比
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302511878 出版時(shí)間: 2018-11-01 包裝: 平裝
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  本書詳細(xì)闡述了與Spark實(shí)時(shí)大數(shù)據(jù)分析以及Spark Streaming框架相關(guān)的基本解決方案,主要包括大數(shù)據(jù)漫游指南,實(shí)時(shí)RDD,高速流:鏈接外部數(shù)據(jù)源,邊界效應(yīng),實(shí)時(shí)ETL和分析技術(shù),大規(guī)模機(jī)器學(xué)習(xí),云、Lambda及Python等內(nèi)容。此外,本書還提供了豐富的示例以及代碼,以幫助讀者進(jìn)一步理解相關(guān)方案的實(shí)現(xiàn)過程。 本書適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)的教材和教學(xué)參考書,也可作為相關(guān)開發(fā)人員的自學(xué)教材和參考手冊。

作者簡介

暫缺《Spark實(shí)時(shí)大數(shù)據(jù)分析:基于Spark Streaming框架》作者簡介

圖書目錄

第1章 大數(shù)據(jù)漫游指南 1

1.1 Spark前傳 1

1.1.1 Web 2.0時(shí)代 2

1.1.2 無處不在的傳感器 7

1.2 Spark Streaming:MapReduce和CEP的交集 9

第2章 Spark簡介 10

2.1 安裝 11

2.2 執(zhí)行 12

2.2.1 獨(dú)立集群模式(Standalone Cluster) 12

2.2.2 YARN模式 13

2.3 第一個(gè)應(yīng)用程序 13

2.3.1 構(gòu)建 16

2.3.2 執(zhí)行 17

2.4 SparkContext 19

2.4.1 RDDs創(chuàng)建 19

2.4.2 處理依賴關(guān)系 20

2.4.3 創(chuàng)建共享變量 21

2.4.4 作業(yè)執(zhí)行 22

2.5 RDD 22

2.5.1 持久化 23

2.5.2 轉(zhuǎn)換 24

2.5.3 行動(dòng)(Action) 28

小結(jié) 29

第3章 實(shí)時(shí)RDD:DStream 30

3.1 從連續(xù)流到離散流 30

3.2 第一個(gè)Spark Streaming應(yīng)用程序 31

3.2.1 構(gòu)建和執(zhí)行 34

3.2.2 Streaming Context 34

3.3 DStreams 36

3.3.1 Spark Streaming應(yīng)用程序剖析 38

3.3.2 轉(zhuǎn)換 42

小結(jié) 52

第4章 高速流:并行化及其他 54

4.1 流數(shù)據(jù)的一大飛躍 54

4.2 并行化 56

4.2.1 Worker 56

4.2.2 執(zhí)行器(Executor) 57

4.2.3 任務(wù)(Task) 59

4.3 批處理間隔 62

4.4 調(diào)度 64

4.4.1 應(yīng)用程序間調(diào)度 64

4.4.2 批處理調(diào)度 64

4.4.3 作業(yè)間調(diào)度 65

4.4.4 一個(gè)行動(dòng),一個(gè)作業(yè) 65

4.5 內(nèi)存 66

4.5.1 序列化 67

4.5.2 壓縮(Compression) 70

4.5.3 垃圾收集 70

4.6 Shuffle 70

4.6.1 早期投影和過濾 70

4.6.2 經(jīng)常使用組合器 70

4.6.3 大量運(yùn)用平行化 70

4.6.4 文件合并(File Consolidation) 71

4.6.5 更多內(nèi)存 71

小結(jié) 71

第5章 鏈接外部數(shù)據(jù)源 72

5.1 智慧城市,智慧地球,一切更智慧 72

5.2 ReceiverInputDStream 74

5.3 套接字 76

5.4 MQTT 85

5.5 Flume 89

5.5.1 基于推模式的Flume數(shù)據(jù)攝取 91

5.5.2 基于拉模式的Flume數(shù)據(jù)攝取 92

5.6 Kafka 92

5.6.1 基于接收器的Kafka消費(fèi)者 95

5.6.2 直接Kafka消費(fèi)者 98

5.7 Twitter 99

5.8 塊間隔 100

5.9 自定義接收器 100

小結(jié) 104

第6章 邊界效應(yīng) 106

6.1 盤點(diǎn)股市 106

6.2 foreachRDD 108

6.2.1 為每條記錄創(chuàng)建一個(gè)連接 110

6.2.2 為每個(gè)分區(qū)創(chuàng)建一個(gè)連接 111

6.2.3 靜態(tài)連接 112

6.2.4 惰性靜態(tài)連接 113

6.2.5 靜態(tài)連接池 114

6.3 可擴(kuò)展流存儲(chǔ) 116

6.3.1 HBase 117

6.3.2 股市控制臺(tái)(Dashboard) 118

6.3.3 SparkOnHBase 120

6.3.4 Cassandra 122

6.3.5 Spark Cassandra連接器 124

6.4 全局狀態(tài)(Global State) 126

6.4.1 靜態(tài)變量 126

6.4.2 updateStateByKey() 128

6.4.3 累加器 129

6.4.4 外部解決方案 131

小結(jié) 133

第7章 充分準(zhǔn)備 134

7.1 每個(gè)點(diǎn)擊都異乎重要 134

7.2 Tachyon(Alluxio) 135

7.3 Spark Web UI 138

7.3.1 歷史分析 151

7.3.2 RESTful度量 152

7.4 日志記錄 153

7.5 外部度量 154

7.6 系統(tǒng)度量 156

7.7 監(jiān)控和報(bào)警 157

小結(jié) 159

第8章 實(shí)時(shí)ETL和分析技術(shù) 160

8.1 交易數(shù)據(jù)記錄的強(qiáng)大功能 160

8.2 第一個(gè)流式Spark SQL應(yīng)用程序 162

8.3 SQLContext 165

8.3.1 創(chuàng)建數(shù)據(jù)框 165

8.3.2 執(zhí)行SQL 168

8.3.3 配置 169

8.3.4 用戶自定義函數(shù) 169

8.3.5 Catalyst:查詢執(zhí)行和優(yōu)化 171

8.3.6 HiveContext 171

8.4 數(shù)據(jù)框(Data Frame) 173

8.4.1 類型 173

8.4.2 查詢轉(zhuǎn)換 173

8.4.3 行動(dòng) 180

8.4.4 RDD操作 182

8.4.5 持久化 182

8.4.6 最佳做法 183

8.5 SparkR 183

8.6 第一個(gè)SparkR應(yīng)用程序 184

8.6.1 執(zhí)行 185

8.6.2 流式SparkR 185

小結(jié) 188

第9章 大規(guī)模機(jī)器學(xué)習(xí) 189

9.1 傳感器數(shù)據(jù)風(fēng)暴 189

9.2 流式MLlib應(yīng)用程序 191

9.3 MLlib 194

9.3.1 數(shù)據(jù)類型 194

9.3.2 統(tǒng)計(jì)分析 197

9.3.3 預(yù)處理 198

9.4 特征選擇和提取 199

9.4.1 卡方選擇 199

9.4.2 主成分分析 200

9.5 學(xué)習(xí)算法 201

9.5.1 分類 202

9.5.2 聚類 202

9.5.3 推薦系統(tǒng) 204

9.5.4 頻繁模式挖掘 207

9.6 流式ML管道應(yīng)用程序 208

9.7 ML 211

9.8 管道交叉驗(yàn)證 212

小結(jié) 213

第10章 云、Lambda及Python 215

10.1 一條好評勝過一千個(gè)廣告 216

10.2 Google Dataproc 217

10.3 基于Dataproc應(yīng)用程序創(chuàng)建的第一個(gè)Spark 220

10.4 PySpark 227

10.5 Lambda架構(gòu) 229

10.6 流式圖分析 238

總結(jié) 241


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)