Spark大數據處理：技術、應用與性能優(yōu)化

定　價：￥59.00

作　者：	高彥杰著
出版社：	機械工業(yè)出版社
叢編項：	大數據技術叢書
標　簽：	計算機/網絡數據倉庫與數據挖掘數據庫

購買這本書可以去

ISBN：	9787111483861	出版時間：	2014-11-01	包裝：	平裝
開本：	16開	頁數：		字數：

內容簡介

　　作為一個基于內存計算的大數據并行計算框架，Spark不僅很好地解決了數據的實時處理問題，而且保證了高容錯性和高可伸縮性。具體來講，它有如下優(yōu)勢：打造全棧多計算范式的高效數據流水線輕量級快速處理易于使用，支持多語言與HDFS等存儲層兼容社區(qū)活躍度高……Spark已經在全球范圍內廣泛使用，無論是Intel、Yahoo！、Twitter、阿里巴巴、百度、騰訊等國際互聯網巨頭，還是一些尚處于成長期的小公司，都在使用Spark。本書作者結合自己在微軟和IBM實踐Spark的經歷和經驗，編寫了這本書。站著初學者的角度，不僅系統、全面地講解了Spark的各項功能及其使用方法，而且較深入地探討了Spark的工作機制、運行原理以及BDAS生態(tài)系統中的其他技術，同時還有一些可供操作的案例，能讓沒有經驗的讀者迅速掌握Spark。更為重要的是，本書還對Spark的性能優(yōu)化進行了探討。

作者簡介

　　高彥杰，畢業(yè)于中國人民大學，就職于IBM，精通Hadoop相關技術，較早接觸并使用Spark，對Spark應用開發(fā)、Spark系統的運維和測試比較熟悉，深度閱讀了Spark的源代碼，了解Spark的運行機制，擅長Spark的查詢優(yōu)化。

圖書目錄

前　言
第1章　Spark簡介 1
1.1　Spark是什么 1
1.2　Spark生態(tài)系統BDAS 4
1.3　Spark架構 6
1.4　Spark分布式架構與單機多核
架構的異同 9
1.5　Spark的企業(yè)級應用 10
1.5.1　Spark在Amazon中的應用 11
1.5.2　Spark在Yahoo!的應用 15
1.5.3　Spark在西班牙電信的應用 17
1.5.4　Spark在淘寶的應用 18
1.6　本章小結 20
第2章　Spark集群的安裝與部署 21
2.1　Spark的安裝與部署 21
2.1.1　在Linux集群上安裝與配置Spark 21
2.1.2　在Windows上安裝與配置Spark 30
2.2　Spark集群初試 33
2.3　本章小結 35
第3章　Spark計算模型 36
3.1　Spark程序模型 36
3.2　彈性分布式數據集 37
3.2.1　RDD簡介 38
3.2.2　RDD與分布式共享內存的異同 38
3.2.3　Spark的數據存儲 39
3.3　Spark算子分類及功能 41
3.3.1　Value型Transformation算子 42
3.3.2　Key-Value型Transformation算子 49
3.3.3　Actions算子 53
3.4　本章小結 59
第4章　Spark工作機制詳解 60
4.1　Spark應用執(zhí)行機制 60
4.1.1　Spark執(zhí)行機制總覽 60
4.1.2　Spark應用的概念 62
4.1.3　應用提交與執(zhí)行方式 63
4.2　Spark調度與任務分配模塊 65
4.2.1　Spark應用程序之間的調度 66
4.2.2　Spark應用程序內Job的調度 67
4.2.3　Stage和TaskSetManager調度方式 72
4.2.4　Task調度 74
4.3　Spark I/O機制 77
4.3.1　序列化 77
4.3.2　壓縮 78
4.3.3　Spark塊管理 80
4.4　Spark通信模塊 93
4.4.1　通信框架AKKA 94
4.4.2　Client、Master和Worker間的通信 95
4.5　容錯機制 104
4.5.1　Lineage機制 104
4.5.2　Checkpoint機制 108
4.6　Shuffle機制 110
4.7　本章小結 119
第5章　Spark開發(fā)環(huán)境配置及流程 120
5.1　Spark應用開發(fā)環(huán)境配置 120
5.1.1　使用Intellij開發(fā)Spark程序 120
5.1.2　使用Eclipse開發(fā)Spark程序 125
5.1.3　使用SBT構建Spark程序 129
5.1.4　使用Spark Shell開發(fā)運行Spark程序 130
5.2　遠程調試Spark程序 130
5.3　Spark編譯 132
5.4　配置Spark源碼閱讀環(huán)境 135
5.5　本章小結 135
第6章　Spark編程實戰(zhàn) 136
6.1　WordCount 136
6.2　Top K 138
6.3　中位數 140
6.4　倒排索引 141
6.5　CountOnce 143
6.6　傾斜連接 144
6.7　股票趨勢預測 146
6.8　本章小結 153
第7章　Benchmark使用詳解 154
7.1　Benchmark簡介 154
7.1.1　Intel Hibench與Berkeley BigDataBench 155
7.1.2　Hadoop GridMix 157
7.1.3　Bigbench、BigDataBenchmark與TPC-DS 158
7.1.4　其他Benchmark 161
7.2　Benchmark的組成 162
7.2.1　數據集 162
7.2.2　工作負載 163
7.2.3　度量指標 167
7.3　Benchmark的使用 168
7.3.1　使用Hibench 168
7.3.2　使用TPC-DS 170
7.3.3　使用BigDataBench 172
7.4　本章小結 176
第8章　BDAS簡介 177
8.1　SQL on Spark 177
8.1.1　使用Spark SQL的原因 178
8.1.2　Spark SQL架構分析 179
8.1.3　Shark簡介 182
8.1.4　Hive on Spark 184
8.1.5　未來展望 185
8.2　Spark Streaming 185
8.2.1　Spark Streaming簡介 186
8.2.2　Spark Streaming架構 188
8.2.3　Spark Streaming原理剖析 189
8.2.4　Spark Streaming調優(yōu) 198
8.2.5　Spark Streaming 實例 198
8.3　GraphX 205
8.3.1　GraphX簡介 205
8.3.2　GraphX的使用 206
8.3.3　GraphX架構 209
8.3.4　運行實例 211
8.4　MLlib 215
8.4.1　MLlib簡介 217
8.4.2　MLlib的數據存儲 219
8.4.3　數據轉換為向量（向量空間模型VSM） 222
8.4.4　MLlib中的聚類和分類 223
8.4.5　算法應用實例 228
8.4.6　利用MLlib進行電影推薦 230
8.5　本章小結 237
第9章　Spark性能調優(yōu) 238
9.1　配置參數 238
9.2　調優(yōu)技巧 239
9.2.1　調度與分區(qū)優(yōu)化 240
9.2.2　內存存儲優(yōu)化 243
9.2.3　網絡傳輸優(yōu)化 249
9.2.4　序列化與壓縮 251
9.2.5　其他優(yōu)化方法 253
9.3　本章小結 255