注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫Spark SQL大數(shù)據(jù)分析快速上手

Spark SQL大數(shù)據(jù)分析快速上手

Spark SQL大數(shù)據(jù)分析快速上手

定 價(jià):¥89.00

作 者: 遲殿委,王澤慧,黃茵茵
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302674863 出版時(shí)間: 2024-11-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  本書內(nèi)容基于Spark新版本展開,符合企業(yè)目前開發(fā)需要。本書全面講解Spark SQL相關(guān)知識(shí)和實(shí)戰(zhàn)應(yīng)用,各章均提供較為豐富的案例及其詳細(xì)的操作步驟,并配套示例源碼、數(shù)據(jù)集、PPT課件和教學(xué)大綱。本書共10章。第1~3章為Spark SQL的基礎(chǔ)準(zhǔn)備部分,內(nèi)容包括Spark SQL的發(fā)展和簡介、Spark的典型數(shù)據(jù)容器及關(guān)系、Spark概述與環(huán)境搭建、Spark典型數(shù)據(jù)結(jié)構(gòu)RDD;第4~7章為Spark SQL的基礎(chǔ)應(yīng)用部分,內(nèi)容包括Spark SQL入門實(shí)戰(zhàn)(包括Scala編程基礎(chǔ))、SQL基礎(chǔ)語法、操作多數(shù)據(jù)源、SparkSQL性能調(diào)優(yōu)等;第8~10章分別通過影評(píng)數(shù)據(jù)分析、商品統(tǒng)計(jì)數(shù)據(jù)分析、咖啡銷售數(shù)據(jù)分析等3個(gè)實(shí)戰(zhàn)項(xiàng)目進(jìn)行鞏固提升。本書內(nèi)容翔實(shí)、示例豐富,既可作為Spark初學(xué)者、大數(shù)據(jù)分析人員、大數(shù)據(jù)應(yīng)用開發(fā)人員的自學(xué)手冊(cè),也可作為高等院?;蚋呗毟邔T盒S?jì)算機(jī)、軟件工程、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、智能科學(xué)與技術(shù)、人工智能等專業(yè)大數(shù)據(jù)課程的教材。本書封面貼有清華大學(xué)出版社防偽標(biāo)簽,無標(biāo)簽者不得銷售。版權(quán)所有,侵權(quán)必究。舉報(bào):010-62782989,beiqinquan@tup.tsinghua.edu.cn。

作者簡介

  遲殿委,計(jì)算機(jī)軟件與理論專業(yè)碩士,系統(tǒng)架構(gòu)設(shè)計(jì)師。有多年企業(yè)軟件研發(fā)經(jīng)驗(yàn)和豐富的JavaEE、大數(shù)據(jù)技術(shù)培訓(xùn)經(jīng)驗(yàn),熟練掌握J(rèn)avaEE與大數(shù)據(jù)全棧技術(shù)框架,擅長JavaEE系統(tǒng)架構(gòu)設(shè)計(jì)、大數(shù)據(jù)分析與挖掘。著有圖書《Hive入門與大數(shù)據(jù)分析實(shí)戰(zhàn)》《Hadoop大數(shù)據(jù)分析技術(shù)》《Hadoop Spark大數(shù)據(jù)分析實(shí)戰(zhàn)》《Spring Boot企業(yè)級(jí)開發(fā)實(shí)戰(zhàn)(視頻教學(xué)版)》《深入淺出Java編程》《Spring Boot Spring Cloud微服務(wù)開發(fā)》。

圖書目錄

目 錄
第 1 章 Spark SQL概述 1
1.1 Spark SQL簡介 1
1.1.1 什么是Spark SQL 1
1.1.2 Spark SQL的特點(diǎn) 2
1.2 Spark數(shù)據(jù)容器 4
1.2.1 什么是DataFrame 4
1.2.2 什么是DataSet 5
1.2.3 Spark SQL與DataFrame 6
1.2.4 DataFrame與RDD的差異 6
第 2 章 Spark概述及環(huán)境搭建 8
2.1 Spark概述 8
2.1.1 關(guān)于Spark 8
2.1.2 Spark的基本概念 9
2.1.3 Spark集群相關(guān)知識(shí) 11
2.2 Linux環(huán)境搭建 16
2.2.1 VirtualBox虛擬機(jī)的安裝 16
2.2.2 安裝Linux操作系統(tǒng) 18
2.2.3 SSH工具與使用 24
2.2.4 Linux的統(tǒng)一設(shè)置 26
2.3 Hadoop完全分布式環(huán)境搭建 28
2.4 Spark的安裝與配置 33
2.4.1 本地模式安裝 34
2.4.2 偽分布模式安裝 36
2.4.3 完全分布模式安裝 39
2.4.4 Spark on YARN 41
2.5 Spark的任務(wù)提交 45
2.5.1 使用spark-submit提交 45
2.5.2 spark-submit參數(shù)說明 46
第 3 章 Spark的典型數(shù)據(jù)結(jié)構(gòu)RDD 49
3.1 什么是RDD 49
3.2 RDD的主要屬性 50
3.3 RDD的特點(diǎn) 51
3.4 RDD的創(chuàng)建與處理過程 54
3.4.1 RDD的創(chuàng)建 55
3.4.2 RDD的處理過程 55
3.4.3 RDD的算子 56
第 4 章 Spark SQL入門實(shí)戰(zhàn) 65
4.1 DataFrame和DataSet實(shí)戰(zhàn)體驗(yàn) 65
4.1.1 SparkSession 65
4.1.2 DataFrame應(yīng)用 66
4.1.3 DataSet應(yīng)用 72
4.1.4 DataFrame和DataSet之間的交互 74
4.2 Scala開發(fā)環(huán)境搭建及其基礎(chǔ)編程 74
4.2.1 開發(fā)環(huán)境搭建 75
4.2.2 Scala基礎(chǔ)編程 78
4.3 Spark SQL實(shí)戰(zhàn)入門體驗(yàn) 94
第 5 章 Spark SQL語法基礎(chǔ)及應(yīng)用 101
5.1 Hive安裝與元數(shù)據(jù)存儲(chǔ)配置 101
5.1.1 安裝Hive 101
5.1.2 配置MySQL存儲(chǔ)元數(shù)據(jù) 104
5.2 Spark SQL DML語句 107
5.2.1 插入數(shù)據(jù) 107
5.2.2 加載數(shù)據(jù) 110
5.3 Spark SQL查詢語句 111
5.4 Spark SQL函數(shù)操作 115
5.4.1 內(nèi)置函數(shù)及使用 115
5.4.2 自定義函數(shù) 126
第 6 章 Spark SQL數(shù)據(jù)源 131
6.1 Spark SQL數(shù)據(jù)加載、存儲(chǔ)概述 131
6.1.1 通用load/save函數(shù) 131
6.1.2 手動(dòng)指定選項(xiàng) 133
6.1.3 在文件上直接進(jìn)行SQL查詢 133
6.1.4 存儲(chǔ)模式 133
6.1.5 持久化到表 134
6.1.6 桶、排序、分區(qū)操作 135
6.2 Spark SQL常見結(jié)構(gòu)化數(shù)據(jù)源 135
6.2.1 Parquet文件 135
6.2.2 JSON 數(shù)據(jù)集 140
6.2.3 Hive表 141
6.2.4 其他關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)表 144
第 7 章 Spark SQL性能調(diào)優(yōu) 148
7.1 Spark執(zhí)行流程 148
7.2 Spark內(nèi)存管理 149
7.3 Spark的一些概念 150
7.4 Spark開發(fā)原則 151
7.5 Spark調(diào)優(yōu)方法 157
7.6 數(shù)據(jù)傾斜調(diào)優(yōu) 168
7.7 Spark執(zhí)行引擎Tungsten簡介 172
7.8 Spark SQL解析引擎Catalyst簡介 173
第 8 章 Spark SQL影評(píng)大數(shù)據(jù)分析項(xiàng)目實(shí)戰(zhàn) 177
8.1 項(xiàng)目介紹 177
8.2 項(xiàng)目實(shí)現(xiàn) 179
8.2.1 引入依賴 179
8.2.2 公共類開發(fā) 184
8.2.3 需求1的實(shí)現(xiàn) 187
8.2.4 需求2的實(shí)現(xiàn) 191
8.2.5 需求3的實(shí)現(xiàn) 194
第 9 章 Spark SQL商品統(tǒng)計(jì)分析項(xiàng)目實(shí)戰(zhàn) 198
9.1 項(xiàng)目介紹 198
9.2 項(xiàng)目實(shí)現(xiàn) 201
9.2.1 引入依賴 201
9.2.2 環(huán)境測試 202
9.2.3 Spark SQL初始化數(shù)據(jù) 203
9.2.4 Spark SQL商品數(shù)據(jù)分析 206
第 10 章 Spark SQL咖啡銷售數(shù)據(jù)分析項(xiàng)目實(shí)戰(zhàn) 211
10.1 項(xiàng)目介紹 211
10.2 數(shù)據(jù)預(yù)處理與數(shù)據(jù)分析 212
10.2.1 查看咖啡銷售量排名 213
10.2.2 觀察咖啡銷售量的分布情況 214
10.3 數(shù)據(jù)可視化 218

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)