注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡家庭與辦公軟件Spark大數(shù)據(jù)分析:核心概念、技術及實踐

Spark大數(shù)據(jù)分析:核心概念、技術及實踐

Spark大數(shù)據(jù)分析:核心概念、技術及實踐

定 價:¥69.00

作 者: [美] 穆罕默德·古勒 著;趙斌 馬景 陳冠誠 譯
出版社: 機械工業(yè)出版社
叢編項: 大數(shù)據(jù)技術叢書
標 簽: 暫缺

ISBN: 9787111565611 出版時間: 2017-05-01 包裝: 平裝
開本: 16開 頁數(shù): 249 字數(shù):  

內(nèi)容簡介

  本書是關于大數(shù)據(jù)和Spark的一個簡明手冊。它將助你學習如何用Spark來完成很多大數(shù)據(jù)分析任務,其中覆蓋了高效利用Spark所需要知道的重要主題:如何使用SparkShell進行交互式數(shù)據(jù)分析、如何編寫Spark應用、如何在Spark中對大規(guī)模數(shù)據(jù)進行交互分析、如何使用SparkStreaming處理高速數(shù)據(jù)流、如何使用Spark進行機器學習、如何使用Spark進行圖處理、如何使用集群管理員部署Spark、如何監(jiān)控Spark應用等。本書還對其他配合Spark一起使用的大數(shù)據(jù)技術進行了介紹,包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos等。本書也對機器學習和圖的概念進行了介紹。

作者簡介

暫缺《Spark大數(shù)據(jù)分析:核心概念、技術及實踐》作者簡介

圖書目錄

Contents 目  錄
譯者序
前言
致謝
第1章 大數(shù)據(jù)技術一覽1
1.1 Hadoop2
1.1.1 HDFS3
1.1.2 MapReduce5
1.1.3 Hive5
1.2 數(shù)據(jù)序列化6
1.2.1 Avro6
1.2.2 Thrift6
1.2.3 Protocol Buffers7
1.2.4 SequenceFile7
1.3 列存儲7
1.3.1 RCFile8
1.3.2 ORC8
1.3.3 Parquet9
1.4 消息系統(tǒng)9
1.4.1 Kafka10
1.4.2 ZeroMQ11
1.5 NoSQL12
1.5.1 Cassandra13
1.5.2 HBase13
1.6 分布式SQL查詢引擎14
1.6.1 Impala14
1.6.2 Presto14
1.6.3 Apache Drill15
1.7 總結15
第2章 Scala編程16
2.1 函數(shù)式編程16
2.1.1 函數(shù)17
2.1.2 不可變數(shù)據(jù)結構18
2.1.3 一切皆表達式19
2.2 Scala基礎19
2.2.1 起步20
2.2.2 基礎類型20
2.2.3 變量21
2.2.4 函數(shù)21
2.2.5 類24
2.2.6 單例24
2.2.7 樣本類25
2.2.8 模式匹配25
2.2.9 操作符26
2.2.10 特質26
2.2.11 元組27
2.2.12 Option類型27
2.2.13 集合28
2.3 一個單獨的Scala應用程序32
2.4 總結32
第3章 Spark Core33
3.1 概述33
3.1.1 主要特點33
3.1.2 理想的應用程序36
3.2 總體架構37
3.2.1 worker37
3.2.2 集群管理員38
3.2.3 驅動程序38
3.2.4 執(zhí)行者38
3.2.5 任務38
3.3 應用運行38
3.3.1 術語38
3.3.2 應用運行過程39
3.4 數(shù)據(jù)源39
3.5 API40
3.5.1 SparkContext40
3.5.2 RDD41
3.5.3 創(chuàng)建RDD42
3.5.4 RDD操作43
3.5.5 保存RDD52
3.6 惰性操作53
3.7 緩存54
3.7.1 RDD的緩存方法55
3.7.2 RDD緩存是可容錯的56
3.7.3 緩存內(nèi)存管理56
3.8 Spark作業(yè)56
3.9 共享變量57
3.9.1 廣播變量57
3.9.2 累加器58
3.10 總結59
第4章 使用Spark shell進行交互式數(shù)據(jù)分析60
4.1 起步60
4.1.1 下載60
4.1.2 解壓61
4.1.3 運行61
4.2 REPL命令62
4.3 把Spark shell當成Scala shell使用62
4.4 數(shù)值分析63
4.5 日志分析64
4.6 總結68
第5章 編寫Spark應用69
5.1 Spark中的Hello World69
5.2 編譯并運行應用72
5.2.1 sbt72
5.2.2 編譯代碼73
5.2.3 運行應用73
5.3 監(jiān)控應用75
5.4 調試應用75
5.5 總結76
第6章 Spark Streaming77
6.1 Spark Streaming簡介78
6.1.1 Spark Streaming是一個Spark類庫78
6.1.2 總體架構78
6.1.3 數(shù)據(jù)流來源78
6.1.4 接收器79
6.1.5 目的地79
6.2 API79
6.2.1 StreamingContext80
6.2.2 Spark Streaming應用基本結構82
6.2.3 DStream82
6.2.4 創(chuàng)建DStream83
6.2.5 處理數(shù)據(jù)流84
6.2.6 輸出操作88
6.2.7 窗口操作91
6.3 一個完整的Spark Streaming應用93
6.4 總結98
第7章 Spark SQL99
7.1 Spark SQL簡介99
7.1.1 和其他Spark庫集成100
7.1.2 可用性100
7.1.3 數(shù)據(jù)源100
7.1.4 數(shù)據(jù)處理接口100
7.1.5 與Hive的互操作性101
7.2 性能101
7.2.1 磁盤I/O101
7.2.2 分區(qū)102
7.2.3 列存儲102
7.2.4 內(nèi)存中的列式緩存102
7.2.5 行跳過102
7.2.6 謂詞下推102
7.2.7 查詢優(yōu)化103
7.3 應用104
7.3.1 ETL104
7.3.2 數(shù)據(jù)可視化104
7.3.3 分布式JDBC/ODBC SQL查詢引擎105
7.3.4 數(shù)據(jù)倉庫105
7.4 API106
7.4.1 關鍵抽象106
7.4.2 創(chuàng)建DataFrame109
7.4.3 在程序中使用SQL/HiveQL處理數(shù)據(jù)114
7.4.4 使用DataFrame API處理數(shù)據(jù)115
7.4.5 保存DataFrame131
7.5 內(nèi)置函數(shù)133
7.5.1 聚合操作134
7.5.2 集合操作134
7.5.3 日期/時間134
7.5.4 數(shù)學135
7.5.5 字符串135
7.5.6 窗口135
7.6 UDF和UDAF135
7.7 一個交互式分析的例子135
7.8 使用Spark SQL JDBC服務器進行交互式分析142
7.9 總結145
第8章 使用Spark進行機器學習146
8.1 機器學習簡介146
8.1.1 特征147
8.1.2 標簽147
8.1.3 模型148
8.1.4 訓練數(shù)據(jù)148
8.1.5 測試數(shù)據(jù)149
8.1.6 機器學習應用149
8.1.7 機器學習算法151
8.1.8 超參數(shù)160
8.1.9 模型評價160
8.1.10 機器學習的主要步驟162
8.2 Spark機器學習庫162
8.3 MLlib概覽163
8.3.1 與其他Spark庫集成163
8.3.2 統(tǒng)計工具163
8.3.3 機器學習算法163
8.4 MLlib API164
8.4.1 數(shù)據(jù)類型164
8.4.2 算法和模型166
8.4.3 模型評價181
8.5 MLlib示例應用184
8.5.1 數(shù)據(jù)集184
8.5.2 目標184
8.5.3 代碼184
8.6 Spark ML186
8.6.1 ML數(shù)據(jù)集187
8.6.2 Transformer187
8.6.3 Estimator187
8.6.4 Pipeline188
8.6.5 PipelineModel188
8.6.6 Evaluator188
8.6.7 網(wǎng)格搜索189
8.6.8 CrossValidator189
8.7 Spark ML示例應用189
8.7.1 數(shù)據(jù)集190
8.7.2 目標190
8.7.3 代碼190
8.8 總結195
第9章 使用Spark進行圖處理196
9.1 圖簡介196
9.1.1 無向圖197
9.1.2 有向圖197
9.1.3 有向多邊圖197
9.1.4 屬性圖197
9.2 GraphX簡介198
9.3 GraphX API199
9.3.1 數(shù)據(jù)抽象199
9.3.2 創(chuàng)建圖200
9.3.3 圖屬性202
9.3.4 圖操作符204
9.4 總結217
第10章 集群管理員218

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號