注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)高性能分布式計(jì)算系統(tǒng)開發(fā)與實(shí)現(xiàn):基于Hadoop、Scalding和Spark

高性能分布式計(jì)算系統(tǒng)開發(fā)與實(shí)現(xiàn):基于Hadoop、Scalding和Spark

高性能分布式計(jì)算系統(tǒng)開發(fā)與實(shí)現(xiàn):基于Hadoop、Scalding和Spark

定 價(jià):¥69.00

作 者: [印度] 斯里尼瓦沙(Srinivasa K.G.) 著,王宏志 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 計(jì)算機(jī)科學(xué)叢書
標(biāo) 簽: 暫缺

ISBN: 9787111601531 出版時(shí)間: 2018-07-01 包裝: 平裝
開本: 16開 頁數(shù): 234 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書分兩部分,共8章,介紹了如何使用開源工具和技術(shù)開發(fā)與實(shí)現(xiàn)大規(guī)模分布式處理系統(tǒng),涵蓋構(gòu)建高性能分布式計(jì)算系統(tǒng)的方法和佳實(shí)踐。第 一部分(第1~4章)介紹了高性能分布式計(jì)算編程的基礎(chǔ)知識(shí),包括分布式系統(tǒng)、Hadoop入門、Spark入門、Scalding入門等;第二部分(第5~8章)給出了使用Hadoop、Spark、Scalding的案例研究,涉及數(shù)據(jù)聚類、數(shù)據(jù)分類、回歸分析、推薦系統(tǒng)等。本書適合作為高等院校計(jì)算機(jī)相關(guān)專業(yè)的教材,也適合作為軟件工程師、應(yīng)用開發(fā)人員、科研人員的參考書。

作者簡(jiǎn)介

  K.G.斯里尼瓦沙(K.G.Srinivasa)于2007年獲得班加羅爾大學(xué)計(jì)算機(jī)科學(xué)與工程博士學(xué)位。現(xiàn)就職于班加羅爾的M.S.拉邁阿理工學(xué)院計(jì)算機(jī)科學(xué)與工程系,任教授兼主任。他在國(guó)際會(huì)議和期刊上共發(fā)表過一百多篇研究論文,曾作為訪問學(xué)者出訪過許多大學(xué)。他是UGC、DRDO和DST資助的多個(gè)項(xiàng)目的首席研究員,其研究領(lǐng)域包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、高性能計(jì)算和云計(jì)算。他是IEEE和ACM的高級(jí)成員。 阿尼爾·庫馬爾·穆帕拉(Anil Kumar Muppalla)既是一位研究者也是一個(gè)作家。具有計(jì)算機(jī)科學(xué)和工程學(xué)學(xué)位。他是很多行業(yè)的軟件開發(fā)者和顧問。他是活躍的研究者,并在國(guó)際會(huì)議和期刊上發(fā)表諸多文章。他研究的方向包括使用Hadoop、Scalding和Spark進(jìn)行應(yīng)用開發(fā)。

圖書目錄

目  錄

譯者序

前言

作者簡(jiǎn)介

第一部分 高性能分布式計(jì)算編程基礎(chǔ)

第1章 引言2

1.1 分布式系統(tǒng)2

1.2 分布式系統(tǒng)類型5

1.2.1 分布式嵌入式系統(tǒng)5

1.2.2 分布式信息系統(tǒng)7

1.2.3 分布式計(jì)算系統(tǒng)8

1.3 分布式計(jì)算架構(gòu)9

1.4 分布式文件系統(tǒng)10

1.4.1 分布式文件系統(tǒng)需求10

1.4.2 分布式文件系統(tǒng)架構(gòu)11

1.5 分布式系統(tǒng)面臨的挑戰(zhàn)13

1.6 分布式系統(tǒng)的發(fā)展趨勢(shì)16

1.7 高性能分布式計(jì)算系統(tǒng)示例18

參考文獻(xiàn)20

第2章 Hadoop入門22

2.1 Hadoop簡(jiǎn)介22

2.2 Hadoop生態(tài)系統(tǒng)24

2.3 Hadoop分布式文件系統(tǒng)26

2.3.1 HDFS的特性26

2.3.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)27

2.3.3 文件系統(tǒng)28

2.3.4 數(shù)據(jù)復(fù)制28

2.3.5 通信30

2.3.6 數(shù)據(jù)組織30

2.4 MapReduce準(zhǔn)備工作31

2.5 安裝前的準(zhǔn)備33

2.6 單節(jié)點(diǎn)集群的安裝35

2.7 多節(jié)點(diǎn)集群的安裝38

2.8 Hadoop編程45

2.9 Hadoop流48

參考文獻(xiàn)51

第3章 Spark入門53

3.1 Spark簡(jiǎn)介53

3.2 Spark內(nèi)部結(jié)構(gòu)54

3.3 Spark安裝58

3.3.1 安裝前的準(zhǔn)備58

3.3.2 開始使用60

3.3.3 示例:Scala應(yīng)用63

3.3.4 Python下Spark的使用65

3.3.5 示例:Python應(yīng)用67

3.4 Spark部署68

3.4.1 應(yīng)用提交68

3.4.2 單機(jī)模式70

參考文獻(xiàn)72

第4章 Scalding和Spark的內(nèi)部編程74

4.1 Scalding簡(jiǎn)介74

4.1.1 安裝74

4.1.2 編程指南77

4.2 Spark編程指南103

參考文獻(xiàn)120

第二部分 使用Hadoop、Scalding和Spark的案例研究

第5章 案例研究Ⅰ:使用Scalding和Spark進(jìn)行數(shù)據(jù)聚類122

5.1 簡(jiǎn)介122

5.2 聚類122

5.2.1 聚類方法123

5.2.2 聚類處理125

5.2.3 K均值算法125

5.2.4 簡(jiǎn)單的K均值示例126

5.3 實(shí)現(xiàn)128

問題142

參考文獻(xiàn)142

第6章 案例研究Ⅱ:使用Scalding和Spark進(jìn)行數(shù)據(jù)分類144

6.1 分類145

6.2 概率論146

6.2.1 隨機(jī)變量146

6.2.2 分布146

6.2.3 均值和方差147

6.3 樸素貝葉斯148

6.3.1 概率模型148

6.3.2 參數(shù)估計(jì)和事件模型149

6.3.3 示例150

6.4 樸素貝葉斯分類器的實(shí)現(xiàn)152

6.4.1 Scalding實(shí)現(xiàn)153

6.4.2 結(jié)果166

問題168

參考文獻(xiàn)168

第7章 案例研究Ⅲ:使用Scalding和Spark進(jìn)行回歸分析169

7.1 回歸分析的步驟169

7.2 實(shí)現(xiàn)細(xì)節(jié)172

7.2.1 線性回歸:代數(shù)方法173

7.2.2 代數(shù)方法的Scalding實(shí)現(xiàn)174

7.2.3 代數(shù)方法的Spark實(shí)現(xiàn)179

7.2.4 線性回歸:梯度下降法184

7.2.5 梯度下降法的Scalding實(shí)現(xiàn)187

7.2.6 梯度下降法的Spark實(shí)現(xiàn)195

問題198

參考文獻(xiàn)199

第8章 案例研究Ⅳ:使用Scalding和Spark實(shí)現(xiàn)推薦系統(tǒng)200

8.1 推薦系統(tǒng)200

8.1.1 目標(biāo)201

8.1.2 推薦系統(tǒng)的數(shù)據(jù)源201

8.1.3 推薦系統(tǒng)中使用的技術(shù)202

8.2 實(shí)現(xiàn)細(xì)節(jié)204

8.2.1 Spark實(shí)現(xiàn)206

8.2.2 Scalding實(shí)現(xiàn)221

問題230

參考文獻(xiàn)230

索引233

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)