注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件Spark SQL入門(mén)與實(shí)踐指南

Spark SQL入門(mén)與實(shí)踐指南

Spark SQL入門(mén)與實(shí)踐指南

定 價(jià):¥49.00

作 者: 紀(jì)涵,靖曉文,趙政達(dá) 著
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787302496700 出版時(shí)間: 2018-03-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 220 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  Spark SQL是 Spark大數(shù)據(jù)框架的一部分,支持使用標(biāo)準(zhǔn)SQL查詢(xún)和HiveQL來(lái)讀寫(xiě)數(shù)據(jù),可用于結(jié)構(gòu)化數(shù)據(jù)處理,并可以執(zhí)行類(lèi)似SQL的Spark數(shù)據(jù)查詢(xún),有助于開(kāi)發(fā)人員更快地創(chuàng)建和運(yùn)行Spark程序。 全書(shū)分為4篇,共9章,第一篇講解了Spark SQL 發(fā)展歷史和開(kāi)發(fā)環(huán)境搭建。第二篇講解了Spark SQL 實(shí)例,使得讀者掌握Spark SQL的入門(mén)操作,了解Spark RDD、DataFrame和DataSet,并熟悉 DataFrame 各種操作。第三篇講解了基于WiFi探針的商業(yè)大數(shù)據(jù)分析項(xiàng)目,實(shí)例中包含數(shù)據(jù)采集、預(yù)處理、存儲(chǔ)、利用Spark SQL 挖掘數(shù)據(jù),一步一步帶領(lǐng)讀者學(xué)習(xí)Spark SQL強(qiáng)大的數(shù)據(jù)挖掘功能。第四篇講解了Spark SQL 優(yōu)化的知識(shí)。 本書(shū)適合Spark初學(xué)者、Spark數(shù)據(jù)分析人員以及Spark程序開(kāi)發(fā)人員,也適合高校和培訓(xùn)學(xué)校相關(guān)專(zhuān)業(yè)的師生教學(xué)參考。

作者簡(jiǎn)介

  紀(jì) 涵,數(shù)據(jù)挖掘、云計(jì)算愛(ài)好者,曾負(fù)責(zé)多個(gè)中小型網(wǎng)站的開(kāi)發(fā)維護(hù)工作,曾參與開(kāi)發(fā)設(shè)計(jì)多款面向校園服務(wù)的App,參與開(kāi)發(fā)設(shè)計(jì)過(guò)多個(gè)基于Hadoop、Spark平臺(tái)的大數(shù)據(jù)應(yīng)用,有著豐富的流數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)處理經(jīng)驗(yàn),現(xiàn)主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘。

圖書(shū)目錄

目 錄

第一部分 入門(mén)篇
第1章 初識(shí)Spark SQL 3
1.1 Spark SQL的前世今生 3
1.2 Spark SQL能做什么 4
第2章 Spark安裝、編程環(huán)境搭建以及打包提交 6
2.1 Spark的簡(jiǎn)易安裝 6
2.2 準(zhǔn)備編寫(xiě)Spark應(yīng)用程序的IDEA環(huán)境 10
2.3 將編寫(xiě)好的Spark應(yīng)用程序打包成jar提交到Spark上 18
第二部分 基礎(chǔ)篇
第3章 Spark上的RDD編程 23
3.1 RDD基礎(chǔ) 24
3.1.1 創(chuàng)建RDD 24
3.1.2 RDD轉(zhuǎn)化操作、行動(dòng)操作 24
3.1.3 惰性求值 25
3.1.4 RDD緩存概述 26
3.1.5 RDD基本編程步驟 26
3.2 RDD簡(jiǎn)單實(shí)例—wordcount 27
3.3 創(chuàng)建RDD 28
3.3.1 程序內(nèi)部數(shù)據(jù)作為數(shù)據(jù)源 28
3.3.2 外部數(shù)據(jù)源 29
3.4 RDD操作 33
3.4.1 轉(zhuǎn)化操作 34
3.4.2 行動(dòng)操作 37
3.4.3 惰性求值 38
3.5 向Spark傳遞函數(shù) 39
3.5.1 傳入匿名函數(shù) 39
3.5.2 傳入靜態(tài)方法和傳入方法的引用 40
3.5.3 閉包的理解 41
3.5.4 關(guān)于向Spark傳遞函數(shù)與閉包的總結(jié) 42
3.6 常見(jiàn)的轉(zhuǎn)化操作和行動(dòng)操作 42
3.6.1 基本RDD轉(zhuǎn)化操作 43
3.6.2 基本RDD行動(dòng)操作 48
3.6.3 鍵值對(duì)RDD 52
3.6.4 不同類(lèi)型RDD之間的轉(zhuǎn)換 56
3.7 深入理解RDD 57
3.8 RDD 緩存、持久化 59
3.8.1 RDD緩存 59
3.8.2 RDD持久化 61
3.8.3 持久化存儲(chǔ)等級(jí)選取策略 63
3.9 RDD checkpoint容錯(cuò)機(jī)制 64
第4章 Spark SQL編程入門(mén) 66
4.1 Spark SQL概述 66
4.1.1 Spark SQL是什么 66
4.1.2 Spark SQL通過(guò)什么來(lái)實(shí)現(xiàn) 66
4.1.3 Spark SQL 處理數(shù)據(jù)的優(yōu)勢(shì) 67
4.1.4 Spark SQL數(shù)據(jù)核心抽象——DataFrame 67
4.2 Spark SQL編程入門(mén)示例 69
4.2.1 程序主入口:SparkSession 69
4.2.2 創(chuàng)建 DataFrame 70
4.2.3 DataFrame基本操作 70
4.2.4 執(zhí)行SQL查詢(xún) 72
4.2.5 全局臨時(shí)表 73
4.2.6 Dataset 73
4.2.7 將RDDs轉(zhuǎn)化為DataFrame 75
4.2.8 用戶(hù)自定義函數(shù) 78
第5章 Spark SQL的DataFrame操作大全 82
5.1 由JSON文件生成所需的DataFrame對(duì)象 82
5.2 DataFrame上的行動(dòng)操作 84
5.3 DataFrame上的轉(zhuǎn)化操作 91
5.3.1 where條件相關(guān) 92
5.3.2 查詢(xún)指定列 94
5.3.3 思維開(kāi)拓:Column的巧妙應(yīng)用 99
5.3.4 limit操作 102
5.3.5 排序操作:order by和sort 103
5.3.6 group by操作 106
5.3.7 distinct、dropDuplicates去重操作 107
5.3.8 聚合操作 109
5.3.9 union合并操作 110
5.3.10 join操作 111
5.3.11 獲取指定字段統(tǒng)計(jì)信息 114
5.3.12 獲取兩個(gè)DataFrame中共有的記錄 116
5.3.13 獲取一個(gè)DataFrame中有另一個(gè)DataFrame中沒(méi)有的記錄 116
5.3.14 操作字段名 117
5.3.15 處理空值列 118
第6章 Spark SQL支持的多種數(shù)據(jù)源 121
6.1 概述 121
6.1.1 通用load/save 函數(shù) 121
6.1.2 手動(dòng)指定選項(xiàng) 123
6.1.3 在文件上直接進(jìn)行SQL查詢(xún) 123
6.1.4 存儲(chǔ)模式 123
6.1.5 持久化到表 124
6.1.6 bucket、排序、分區(qū)操作 124
6.2 典型結(jié)構(gòu)化數(shù)據(jù)源 125
6.2.1 Parquet 文件 125
6.2.2 JSON 數(shù)據(jù)集 129
6.2.3 Hive表 130
6.2.4 其他數(shù)據(jù)庫(kù)中的數(shù)據(jù)表 133
第三部分 實(shí)踐篇
第7章 Spark SQL 工程實(shí)戰(zhàn)之基于WiFi探針的商業(yè)大數(shù)據(jù)分析技術(shù) 139
7.1 功能需求 139
7.1.1 數(shù)據(jù)收集 139
7.1.2 數(shù)據(jù)清洗 140
7.1.3 客流數(shù)據(jù)分析 141
7.1.4 數(shù)據(jù)導(dǎo)出 142
7.2 系統(tǒng)架構(gòu) 142
7.3 功能設(shè)計(jì) 143
7.4 數(shù)據(jù)庫(kù)結(jié)構(gòu) 144
7.5 本章小結(jié) 144
0

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)