定 價(jià):¥89.00
作 者: | (美)祖貝爾·納比 |
出版社: | 清華大學(xué)出版社 |
叢編項(xiàng): | |
標(biāo) 簽: | 暫缺 |
ISBN: | 9787302511878 | 出版時(shí)間: | 2018-11-01 | 包裝: | 平裝 |
開本: | 16開 | 頁數(shù): | 字?jǐn)?shù): |
第1章 大數(shù)據(jù)漫游指南 1
1.1 Spark前傳 1
1.1.1 Web 2.0時(shí)代 2
1.1.2 無處不在的傳感器 7
1.2 Spark Streaming:MapReduce和CEP的交集 9
第2章 Spark簡介 10
2.1 安裝 11
2.2 執(zhí)行 12
2.2.1 獨(dú)立集群模式(Standalone Cluster) 12
2.2.2 YARN模式 13
2.3 第一個(gè)應(yīng)用程序 13
2.3.1 構(gòu)建 16
2.3.2 執(zhí)行 17
2.4 SparkContext 19
2.4.1 RDDs創(chuàng)建 19
2.4.2 處理依賴關(guān)系 20
2.4.3 創(chuàng)建共享變量 21
2.4.4 作業(yè)執(zhí)行 22
2.5 RDD 22
2.5.1 持久化 23
2.5.2 轉(zhuǎn)換 24
2.5.3 行動(dòng)(Action) 28
小結(jié) 29
第3章 實(shí)時(shí)RDD:DStream 30
3.1 從連續(xù)流到離散流 30
3.2 第一個(gè)Spark Streaming應(yīng)用程序 31
3.2.1 構(gòu)建和執(zhí)行 34
3.2.2 Streaming Context 34
3.3 DStreams 36
3.3.1 Spark Streaming應(yīng)用程序剖析 38
3.3.2 轉(zhuǎn)換 42
小結(jié) 52
第4章 高速流:并行化及其他 54
4.1 流數(shù)據(jù)的一大飛躍 54
4.2 并行化 56
4.2.1 Worker 56
4.2.2 執(zhí)行器(Executor) 57
4.2.3 任務(wù)(Task) 59
4.3 批處理間隔 62
4.4 調(diào)度 64
4.4.1 應(yīng)用程序間調(diào)度 64
4.4.2 批處理調(diào)度 64
4.4.3 作業(yè)間調(diào)度 65
4.4.4 一個(gè)行動(dòng),一個(gè)作業(yè) 65
4.5 內(nèi)存 66
4.5.1 序列化 67
4.5.2 壓縮(Compression) 70
4.5.3 垃圾收集 70
4.6 Shuffle 70
4.6.1 早期投影和過濾 70
4.6.2 經(jīng)常使用組合器 70
4.6.3 大量運(yùn)用平行化 70
4.6.4 文件合并(File Consolidation) 71
4.6.5 更多內(nèi)存 71
小結(jié) 71
第5章 鏈接外部數(shù)據(jù)源 72
5.1 智慧城市,智慧地球,一切更智慧 72
5.2 ReceiverInputDStream 74
5.3 套接字 76
5.4 MQTT 85
5.5 Flume 89
5.5.1 基于推模式的Flume數(shù)據(jù)攝取 91
5.5.2 基于拉模式的Flume數(shù)據(jù)攝取 92
5.6 Kafka 92
5.6.1 基于接收器的Kafka消費(fèi)者 95
5.6.2 直接Kafka消費(fèi)者 98
5.7 Twitter 99
5.8 塊間隔 100
5.9 自定義接收器 100
小結(jié) 104
第6章 邊界效應(yīng) 106
6.1 盤點(diǎn)股市 106
6.2 foreachRDD 108
6.2.1 為每條記錄創(chuàng)建一個(gè)連接 110
6.2.2 為每個(gè)分區(qū)創(chuàng)建一個(gè)連接 111
6.2.3 靜態(tài)連接 112
6.2.4 惰性靜態(tài)連接 113
6.2.5 靜態(tài)連接池 114
6.3 可擴(kuò)展流存儲(chǔ) 116
6.3.1 HBase 117
6.3.2 股市控制臺(tái)(Dashboard) 118
6.3.3 SparkOnHBase 120
6.3.4 Cassandra 122
6.3.5 Spark Cassandra連接器 124
6.4 全局狀態(tài)(Global State) 126
6.4.1 靜態(tài)變量 126
6.4.2 updateStateByKey() 128
6.4.3 累加器 129
6.4.4 外部解決方案 131
小結(jié) 133
第7章 充分準(zhǔn)備 134
7.1 每個(gè)點(diǎn)擊都異乎重要 134
7.2 Tachyon(Alluxio) 135
7.3 Spark Web UI 138
7.3.1 歷史分析 151
7.3.2 RESTful度量 152
7.4 日志記錄 153
7.5 外部度量 154
7.6 系統(tǒng)度量 156
7.7 監(jiān)控和報(bào)警 157
小結(jié) 159
第8章 實(shí)時(shí)ETL和分析技術(shù) 160
8.1 交易數(shù)據(jù)記錄的強(qiáng)大功能 160
8.2 第一個(gè)流式Spark SQL應(yīng)用程序 162
8.3 SQLContext 165
8.3.1 創(chuàng)建數(shù)據(jù)框 165
8.3.2 執(zhí)行SQL 168
8.3.3 配置 169
8.3.4 用戶自定義函數(shù) 169
8.3.5 Catalyst:查詢執(zhí)行和優(yōu)化 171
8.3.6 HiveContext 171
8.4 數(shù)據(jù)框(Data Frame) 173
8.4.1 類型 173
8.4.2 查詢轉(zhuǎn)換 173
8.4.3 行動(dòng) 180
8.4.4 RDD操作 182
8.4.5 持久化 182
8.4.6 最佳做法 183
8.5 SparkR 183
8.6 第一個(gè)SparkR應(yīng)用程序 184
8.6.1 執(zhí)行 185
8.6.2 流式SparkR 185
小結(jié) 188
第9章 大規(guī)模機(jī)器學(xué)習(xí) 189
9.1 傳感器數(shù)據(jù)風(fēng)暴 189
9.2 流式MLlib應(yīng)用程序 191
9.3 MLlib 194
9.3.1 數(shù)據(jù)類型 194
9.3.2 統(tǒng)計(jì)分析 197
9.3.3 預(yù)處理 198
9.4 特征選擇和提取 199
9.4.1 卡方選擇 199
9.4.2 主成分分析 200
9.5 學(xué)習(xí)算法 201
9.5.1 分類 202
9.5.2 聚類 202
9.5.3 推薦系統(tǒng) 204
9.5.4 頻繁模式挖掘 207
9.6 流式ML管道應(yīng)用程序 208
9.7 ML 211
9.8 管道交叉驗(yàn)證 212
小結(jié) 213
第10章 云、Lambda及Python 215
10.1 一條好評勝過一千個(gè)廣告 216
10.2 Google Dataproc 217
10.3 基于Dataproc應(yīng)用程序創(chuàng)建的第一個(gè)Spark 220
10.4 PySpark 227
10.5 Lambda架構(gòu) 229
10.6 流式圖分析 238
總結(jié) 241