注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡家庭與辦公軟件Spark大數(shù)據(jù)分析實戰(zhàn)

Spark大數(shù)據(jù)分析實戰(zhàn)

Spark大數(shù)據(jù)分析實戰(zhàn)

定 價:¥79.00

作 者: 張偉洋 著
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787302556954 出版時間: 2020-07-01 包裝: 平裝
開本: 16開 頁數(shù): 365 字數(shù):  

內容簡介

  本書基于Spark 2.4.x新版本編寫,從Spark核心編程語言Scala講起,涵蓋當前整個Spark生態(tài)系統(tǒng)主流的大數(shù)據(jù)開發(fā)技術。全書共9章,第1章講解Scala語言的基礎知識,包括IDEA工具的使用等;第2章講解Spark的主要組件、集群架構原理、集群環(huán)境搭建以及Spark應用程序的提交和運行;第3~9章講解離線計算框架Spark RDD、Spark SQL和實時計算框架Kafka、Spark Streaming、Structured Streaming以及圖計算框架GraphX等的基礎知識、架構原理,同時包括常用Shell命令、API操作、內核源碼剖析,并通過多個實際案例講解各個框架的具體應用以及與Hadoop生態(tài)系統(tǒng)框架Hive、HBase、Kafka的整合操作。 本書內容豐富,以實操案例為主,理論為輔,可作為Spark新手的入門書,也可作為大數(shù)據(jù)開發(fā)人員和從業(yè)者的學習用書,還可以作為培訓機構或大中專院校的教學用書。

作者簡介

  張偉洋 大數(shù)據(jù)領域資深專家,擁有多年頂j互聯(lián)網(wǎng)公司軟件研發(fā)經(jīng)驗,曾在互聯(lián)網(wǎng)旅游公司任軟件研發(fā)事業(yè)部經(jīng)理。目前從事大數(shù)據(jù)項目講師工作,先后多次給各大高校舉行大數(shù)據(jù)專題講座,對Hadoop及周邊大數(shù)據(jù)框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有著深入的研究。高等院校云計算與大數(shù)據(jù)專業(yè)課改教材《云計算與大數(shù)據(jù)概論》《大數(shù)據(jù)開發(fā)與應用》的主要編寫者。

圖書目錄

目 錄
第1章 Spark開發(fā)準備——Scala基礎 1
1.1 什么是SCALA 1
1.2 安裝SCALA 2
1.2.1 在Windows中安裝Scala 2
1.2.2 在CentOS 7中安裝Scala 3
1.3 SCALA基礎 4
1.3.1 變量聲明 4
1.3.2 數(shù)據(jù)類型 5
1.3.3 表達式 7
1.3.4 循 環(huán) 8
1.3.5 方法與函數(shù) 10
1.4 集 合 14
1.4.1 數(shù) 組 14
1.4.2 List 16
1.4.3 Map映射 17
1.4.4 元 組 19
1.4.5 Set 20
1.5 類和對象 21
1.5.1 類的定義 21
1.5.2 單例對象 22
1.5.3 伴生對象 22
1.5.4 get和set方法 23
1.5.5 構造器 25
1.6 抽象類和特質 28
1.6.1 抽象類 28
1.6.2 特 質 30
1.7 使用ECLIPSE創(chuàng)建SCALA項目 31
1.7.1 安裝Scala for Eclipse IDE 31
1.7.2 創(chuàng)建Scala項目 33
1.8 使用INTELLIJ IDEA創(chuàng)建SCALA項目 33
1.8.1 在IDEA中安裝Scala插件 34
1.8.2 創(chuàng)建Scala項目 37
第2章 初識Spark 40
2.1 大數(shù)據(jù)開發(fā)總體架構 40
2.2 什么是SPARK 42
2.3 SPARK主要組件 43
2.4 SPARK運行時架構 45
2.4.1 YARN集群架構 45
2.4.2 Spark Standalone架構 49
2.4.3 Spark On YARN架構 50
2.5 SPARK集群搭建與測試 53
2.5.1 Spark Standalone模式的集群搭建 53
2.5.2 Spark On YARN模式的集群搭建 55
2.5.3 Spark HA的搭建 56
2.6 SPARK應用程序的提交 60
2.7 SPARK SHELL的使用 63
第3章 Spark RDD彈性分布式數(shù)據(jù)集 66
3.1 什么是RDD 66
3.2 創(chuàng)建RDD 67
3.2.1 從對象集合創(chuàng)建RDD 67
3.2.2 從外部存儲創(chuàng)建RDD 68
3.3 RDD的算子 69
3.3.1 轉化算子 69
3.3.2 行動算子 77
3.4 RDD的分區(qū) 78
3.4.1 分區(qū)數(shù)量 79
3.4.2 自定義分區(qū)器 88
3.5 RDD的依賴 93
3.5.1 窄依賴 94
3.5.2 寬依賴 94
3.5.3 Stage劃分 95
3.6 RDD的持久化 97
3.6.1 存儲級別 98
3.6.2 查看緩存 100
3.7 RDD的檢查點 102
3.8 共享變量 104
3.8.1 廣播變量 104
3.8.2 累加器 106
3.9 案例分析:SPARK RDD實現(xiàn)單詞計數(shù) 107
3.10 案例分析:SPARK RDD實現(xiàn)分組求TOPN 116
3.11 案例分析:SPARK RDD實現(xiàn)二次排序 120
3.12 案例分析:SPARK RDD計算成績平均分 124
3.13 案例分析:SPARK RDD倒排索引統(tǒng)計每日新增用戶 126
3.14 案例分析:SPARK RDD讀寫HBASE 130
3.14.1 讀取HBase表數(shù)據(jù) 131
3.14.2 寫入HBase表數(shù)據(jù) 134
3.15 案例分析:SPARK RDD數(shù)據(jù)傾斜問題解決 143
3.15.1 數(shù)據(jù)傾斜的常用解決方法 144
3.15.2 使用隨機key進行雙重聚合 145
3.15.3 WebUI查看Spark歷史作業(yè) 149
第4章 Spark內核源碼分析 151
4.1 SPARK集群啟動原理分析 151
4.2 SPARK應用程序提交原理分析 162
4.3 SPARK作業(yè)工作原理分析 175
4.3.1 MapReduce的工作原理 175
4.3.2 Spark作業(yè)工作的原理 177
4.4 SPARK檢查點原理分析 191
第5章 Spark SQL結構化數(shù)據(jù)處理引擎 196
5.1 什么是SPARK SQL 196
5.2 DATAFRAME和DATASET 197
5.3 SPARK SQL的基本使用 198
5.4 SPARK SQL數(shù)據(jù)源 201
5.4.1 基本操作 201
5.4.2 Parquet文件 206
5.4.3 JSON數(shù)據(jù)集 209
5.4.4 Hive表 211
5.4.5 JDBC 213
5.5 SPARK SQL內置函數(shù) 214
5.5.1 自定義函數(shù) 216
5.5.2 自定義聚合函數(shù) 218
5.5.3 開窗函數(shù) 220
5.6 案例分析:使用SPARK SQL實現(xiàn)單詞計數(shù) 223
5.7 案例分析:SPARK SQL與HIVE整合 228
5.7.1 整合Hive的步驟 228
5.7.2 操作Hive的幾種方式 231
5.8 案例分析:SPARK SQL讀寫MYSQL 233
5.9 案例分析:SPARK SQL每日UV統(tǒng)計 238
5.10 案例分析:SPARK SQL熱點搜索詞統(tǒng)計 241
5.11 綜合案例:SPARK SQL智慧交通數(shù)據(jù)分析 244
5.11.1 項目介紹 244
5.11.2 數(shù)據(jù)準備 246
5.11.3 統(tǒng)計正??跀?shù)量 249
5.11.4 統(tǒng)計車流量排名前3的卡口號 249
5.11.5 統(tǒng)計車輛高速通過的卡口TOP5 250
5.11.6 統(tǒng)計每個卡口通過速度最快的前3輛車 254
5.11.7 車輛軌跡分析 255
第6章 Kafka分布式消息系統(tǒng) 256
6.1 什么是KAFKA 256
6.2 KAFKA架構 257
6.3 主題與分區(qū) 259
6.4 分區(qū)副本 260
6.5 消費者組 262
6.6 數(shù)據(jù)存儲機制 264
6.7 集群環(huán)境搭建 266
6.8 命令行操作 268
6.8.1 創(chuàng)建主題 268
6.8.2 查詢主題 269
6.8.3 創(chuàng)建生產者 269
6.8.4 創(chuàng)建消費者 270
6.9 JAVA API操作 271
6.9.1 創(chuàng)建Java工程 271
6.9.2 創(chuàng)建生產者 271
6.9.3 創(chuàng)建消費者 273
6.9.4 運行程序 275
6.10 案例分析:KAFKA生產者攔截器 277
第7章 Spark Streaming實時流處理引擎 285
7.1 什么是SPARK STREAMING 285
7.2 SPARK STREAMING工作原理 286
7.3 輸入DSTREAM和RECEIVER 287
7.4 第一個SPARK STREAMING程序 288
7.5 SPARK STREAMING數(shù)據(jù)源 290
7.5.1 基本數(shù)據(jù)源 290
7.5.2 高級數(shù)據(jù)源 292
7.5.3 自定義數(shù)據(jù)源 293

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號