作為一個基于內存計算的大數據并行計算框架,Spark不僅很好地解決了數據的實時處理問題,而且保證了高容錯性和高可伸縮性。具體來講,它有如下優(yōu)勢:打造全棧多計算范式的高效數據流水線輕量級快速處理易于使用,支持多語言與HDFS等存儲層兼容社區(qū)活躍度高……Spark已經在全球范圍內廣泛使用,無論是Intel、Yahoo!、Twitter、阿里巴巴、百度、騰訊等國際互聯網巨頭,還是一些尚處于成長期的小公司,都在使用Spark。本書作者結合自己在微軟和IBM實踐Spark的經歷和經驗,編寫了這本書。站著初學者的角度,不僅系統、全面地講解了Spark的各項功能及其使用方法,而且較深入地探討了Spark的工作機制、運行原理以及BDAS生態(tài)系統中的其他技術,同時還有一些可供操作的案例,能讓沒有經驗的讀者迅速掌握Spark。更為重要的是,本書還對Spark的性能優(yōu)化進行了探討。