本書基于Spark發(fā)行版2.4.4寫作而成,包含大量的實例與一個完整項目,層次分明,循序漸進。全書分為3部分,涵蓋了技術理論與實戰(zhàn),讀者可以從實戰(zhàn)中鞏固學習到的知識。第一部分主要圍繞BDAS(伯克利數據分析棧),不僅介紹了如何開發(fā)Spark應用的基礎內容,還介紹了Structured Streaming、Spark機器學習、Spark圖挖掘、Spark深度學習等高級主題,此外還介紹了Alluxio系統(tǒng)。第二部分實現了一個企業(yè)背景調查系統(tǒng),比較新穎的是,該系統(tǒng)借鑒了數據湖與Lambda架構的思想,涵蓋了批處理、流處理應用開發(fā),并加入了一些開源組件來滿足需求,既是對本書第一部分很好的鞏固,又完整呈現了一個實時大數據應用的開發(fā)過程。第三部分是對全書的總結和展望。本書適合準備學習Spark的開發(fā)人員和數據分析師,以及準備將Spark應用到實際項目中的開發(fā)人員和管理人員閱讀,也適合計算機相關專業(yè)的高年級本科生和研究生學習和參考,對于具有一定的Spark使用經驗并想進一步提升的數據科學從業(yè)者也是很好的參考資料。