注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡家庭與辦公軟件Spark大數(shù)據(jù)處理:原理、算法與實例

Spark大數(shù)據(jù)處理:原理、算法與實例

Spark大數(shù)據(jù)處理:原理、算法與實例

定 價:¥49.00

作 者: 劉軍,林文輝,方澄 著
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787302449959 出版時間: 2016-09-01 包裝: 平裝
開本: 16開 頁數(shù): 199 字數(shù):  

內容簡介

  本書以時下流行的Hadoop所存在的缺陷為出發(fā)點,深入淺出地介紹了下一代大數(shù)據(jù)處理核心技術Spark的優(yōu)勢和必要性,并以簡潔的指引步驟展示了如何在10分鐘內建立一個Spark大數(shù)據(jù)處理環(huán)境。在此基礎上,本書以圖文并茂和豐富的示例代碼講解的形式系統(tǒng)性地揭示了Spark的運行原理、算子使用、算法設計和優(yōu)化手段,為讀者提供了一個快速由淺入深掌握Spark基礎能力和高級技巧的參考書籍。本書共六章,涉及的主題主要包括大數(shù)據(jù)處理技術從Hadoop發(fā)展到Spark的必然性、快速體驗Spark的指引、Spark架構和原理、RDD算子使用方法和示例、Spark算法設計實例、Spark程序優(yōu)化方法。本書適合需要使用Spark進行大數(shù)據(jù)處理的程序員、架構師和產(chǎn)品經(jīng)理作為技術參考和培訓資料,亦可作為高校研究生和本科生教材。

作者簡介

  劉軍,男,1976年生人,博士,副教授,碩士生導師,北京郵電大學數(shù)據(jù)科學中心主任。2003年至2007年任職于IBM中國研究院,擔任高級研究員及部門經(jīng)理,建立IBM中國研究院電信融合網(wǎng)絡管理研究方向,主持研發(fā)Websphere及Tivoli電信產(chǎn)品線中多項關鍵技術,期間發(fā)表多篇國際會議及刊物論文,并申請獲得多項美國專利。2007年至2012年創(chuàng)辦歡城(北京)科技有限公司,開創(chuàng)中國無端網(wǎng)絡游戲產(chǎn)業(yè),并擔任中國軟件協(xié)會網(wǎng)頁游戲專業(yè)委員會委員。公司產(chǎn)品多次榮獲國內互聯(lián)網(wǎng)業(yè)界獎項,2008年獲中國互聯(lián)網(wǎng)協(xié)會“十分具運營價值Webgame”獎項,2012年至今在北京郵電大學信息與通信工程學院任教,研究方向為電信及互聯(lián)網(wǎng)大數(shù)據(jù)分析、高速數(shù)據(jù)流挖掘算法,并牽頭組建北京郵電大學數(shù)據(jù)科學中心。開設研究生課程《海量數(shù)據(jù)處理中的云計算》,發(fā)表大數(shù)據(jù)分析相關SCI/EI檢索論文十余篇,并獨著《Hadoop大數(shù)據(jù)處理》一書,該書被哈工大、中南大學等多所高校的相關課程作為教材使用。

圖書目錄

第1章從Hadoop到Spark
1.1Hadoop——大數(shù)據(jù)時代的火種
1.1.1大數(shù)據(jù)的由來
1.1.2Google解決大數(shù)據(jù)計算問題的方法
1.1.3Hadoop的由來與發(fā)展
1.2Hadoop的局限性
1.2.1Hadoop運行機制
1.2.2Hadoop的性能問題
1.2.3針對Hadoop的改進
1.3大數(shù)據(jù)技術新星——Spark
1.3.1Spark的出現(xiàn)與發(fā)展
1.3.2Spark協(xié)議族
1.3.3Spark的應用及優(yōu)勢
第2章體驗Spark
2.1安裝和使用Spark
2.1.1安裝Spark
2.1.2了解Spark目錄結構
2.1.3使用Spark Shell
2.2編寫和運行Spark程序
2.2.1安裝Scala插件
2.2.2編寫Spark程序
2.2.3運行Spark程序
2.3Spark Web UI
2.3.1訪問實時Web UI
2.3.2從實時UI查看作業(yè)信息
第3章Spark原理
3.1Spark工作原理
3.2Spark架構及運行機制
3.2.1Spark系統(tǒng)架構與節(jié)點角色
3.2.2Spark作業(yè)執(zhí)行過程
3.2.3應用初始化
3.2.4構建RDD有向無環(huán)圖
3.2.5RDD有向無環(huán)圖拆分
3.2.6Task調度
3.2.7Task執(zhí)行
第4章RDD算子
4.1創(chuàng)建算子
4.1.1基于集合類型數(shù)據(jù)創(chuàng)建RDD
4.1.2基于外部數(shù)據(jù)創(chuàng)建RDD
4.2變換算子
4.2.1對Value型RDD進行變換
4.2.2對Key/ Value型RDD進行變換
4.3行動算子
4.3.1數(shù)據(jù)運算類行動算子
4.3.2存儲型行動算子
4.4緩存算子
第5章Spark算法設計
5.1過濾
5.2去重計數(shù)
5.3相關計數(shù)
5.4相關系數(shù)
5.5數(shù)據(jù)聯(lián)結
5.6TopK
5.7Kmeans
5.8關聯(lián)規(guī)則挖掘
5.9kNN
5.10樸素貝葉斯分類
第6章善用Spark
6.1合理分配資源
6.2控制并行度
6.3利用持久化
6.4選擇恰當?shù)乃阕?br />6.5利用共享變量
6.5.1累加器變量
6.5.2廣播變量
6.6利用序列化技術
6.7關注數(shù)據(jù)本地性
6.8內存優(yōu)化策略
6.9集成外部工具
參考文獻

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號