Spark大數(shù)據(jù)商業(yè)實戰(zhàn)三部曲：內(nèi)核解密|商業(yè)案例|性能調(diào)優(yōu)（第2版）

定　價：￥329.00

作　者：	王家林，段智華
出版社：	清華大學出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

ISBN：	9787302544531	出版時間：	2020-05-01	包裝：
開本：	16開	頁數(shù)：	1303	字數(shù)：

內(nèi)容簡介

　　《Spark大數(shù)據(jù)商業(yè)實戰(zhàn)三部曲：內(nèi)核解密商業(yè)案例性能調(diào)優(yōu)（第2版）》基于 Spark 2.4.X版本，以 Spark商業(yè)案例實戰(zhàn)和 Spark在生產(chǎn)環(huán)境下幾乎所有類型的性能調(diào)優(yōu)為核心，以 Spark內(nèi)核解密為基石，對企業(yè)生產(chǎn)環(huán)境下的 Spark商業(yè)案例與性能調(diào)優(yōu)抽絲剝繭地進行剖析。全書共分 4篇，內(nèi)核解密篇基于 Spark源碼，從一個實戰(zhàn)案例入手，循序漸進地全面解析 Spark 2.4.X版本的新特性及 Spark內(nèi)核源碼；商業(yè)案例篇選取 Spark開發(fā)中具代表性的經(jīng)典學習案例，在案例中綜合介紹 Spark的大數(shù)據(jù)技術(shù)；性能調(diào)優(yōu)篇覆蓋 Spark在生產(chǎn)環(huán)境下的所有調(diào)優(yōu)技術(shù)；Spark+AI解密篇講解深度學習實踐、 Spark+PyTorch案例實戰(zhàn)、Spark+TensorFlow實戰(zhàn)以及 Spark上的深度學習內(nèi)核解密。該書適合所有 Spark學習者和從業(yè)人員使用。對于有分布式計算框架應用經(jīng)驗的人員，該書也可作為 Spark高手修煉的參考用書。該書還適合作為高等院校的大數(shù)據(jù)課程教材。

作者簡介

　　王家林，Apache Spark執(zhí)牛耳者現(xiàn)工作于硅谷的AI實驗室，專注于NLP框架超過20本Spark、Al、Android書籍作者Toastmasters International Division Director GRE博士入學考試連續(xù)兩次滿分獲得者段智華，就職于中國電信股份有限公司上海分公司，系統(tǒng)架構(gòu)師，CSDN博客專家，專注于Spark大數(shù)據(jù)技術(shù)研發(fā)及推廣，跟隨Spark核心源碼技術(shù)的發(fā)展，深入研究Spark 2.1.1版本及Spark 2.2.0版本的源碼優(yōu)化，對Spark大數(shù)據(jù)處理、機器學習等技術(shù)有豐富的實戰(zhàn)經(jīng)驗和濃厚興趣。

圖書目錄

第1篇內(nèi)核解密篇
第1章電光石火間體驗Spark 2．4 開發(fā)實戰(zhàn)
1．1 通過RDD實戰(zhàn)電影點評系統(tǒng)入門及源碼閱讀
1．1．1 Spark核心概念圖解
1．1．2 通過RDD實戰(zhàn)電影點評系統(tǒng)案例
1．2 通過DataFrame和DataSet實戰(zhàn)電影點評系統(tǒng)
1．2．1 通過DataFrame實戰(zhàn)電影點評系統(tǒng)案例
1．2．2 通過DataSet實戰(zhàn)電影點評系統(tǒng)案例
1．3 Spark2．4 源碼閱讀環(huán)境搭建及源碼閱讀體驗
第2章 Spark 2．4 技術(shù)及原理
2．1 Spark 2．4 綜述
2．1．1 連續(xù)應用程序
2．1．2 新的API
2．2 Spark 2．4 Core
2．2．1 第二代Tungsten引擎
2．2．2 SparkSession
2．2．3 累加器API
2．3 Spark 2．4 SQL
2．3．1 Spark SQL
2．3．2 DataFrame和Dataset API
2．3．3 Timed Window
2．4 Spark 2．4 Streaming
2．4．1 Structured Streaming
2．4．2 增量輸出模式
2．5 Spark 2．4 MLlib
2．5．1 基于DataFrame的Machine Learning API
2．5．2 R的分布式算法
2．6 Spark 2．4 GraphX
第3章 Spark的靈魂：RDD和DataSet
3．1 為什么說RDD和DataSet是Spark的靈魂
3．1．1 RDD的定義及五大特性剖析
3．1．2 DataSet的定義及內(nèi)部機制剖析
3．2 RDD彈性特性7個方面解析
3．3 RDD依賴關(guān)系
3．3．1 窄依賴解析
3．3．2 寬依賴解析
3．4 解析Spark中的DAG邏輯視圖
3．4．1 DAG生成的機制
3．4．2 DAG邏輯視圖解析
3．5 RDD內(nèi)部的計算機制
3．5．1 Task解析
3．5．2 計算過程深度解析
3．6 SparkRDD容錯原理及其四大核心要點解析
3．6．1 Spark RDD容錯原理
3．6．2 RDD容錯的四大核心要點
3．7 SparkRDD中Runtime流程解析
3．7．1 Runtime架構(gòu)圖
3．7．2 生命周期
3．8 通過WordCount實戰(zhàn)解析Spark RDD內(nèi)部機制
3．8．1 Spark WordCount動手實踐
3．8．2 解析RDD生成的內(nèi)部機制
3．9 基于DataSet的代碼如何轉(zhuǎn)化為RDD
第4章 Spark Driver啟動內(nèi)幕剖析
4．1 Spark Driver Program剖析
4．1．1 Spark Driver Program
4．1．2 SparkContext深度剖析
4．1．3 SparkContext源碼解析
4．2 DAGScheduler解析
4．2．1 DAG的定義
4．2．2 DAG的實例化
4．2．3 DAGScheduler劃分Stage的原理
4．2．4 DAGScheduler劃分Stage的具體算法
4．2．5 Stage內(nèi)部Task獲取最佳位置的算法
4．3 TaskScheduler解析
4．3．1 TaskScheduler原理剖析
4．3．2 TaskScheduler源碼解析
4．4 SchedulerBackend解析
4．4．1 SchedulerBackend原理剖析
4．4．2 SchedulerBackend源碼解析
4．4．3 Spark程序的注冊機制
……
第2篇商業(yè)案例篇
第3篇性能調(diào)優(yōu)篇
第4篇 Spark+AI解密篇