注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡家庭與辦公軟件顛覆大數(shù)據(jù)分析:基于Storm、Spark等Hadoop替代技術的實時應用

顛覆大數(shù)據(jù)分析:基于Storm、Spark等Hadoop替代技術的實時應用

顛覆大數(shù)據(jù)分析:基于Storm、Spark等Hadoop替代技術的實時應用

定 價:¥49.00

作 者: Vijay Agneeswaran(維賈伊.阿涅斯瓦蘭)著,吳京潤 黃經(jīng)業(yè) 譯
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 計算機/網(wǎng)絡 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787121252242 出版時間: 2015-05-01 包裝:
開本: 頁數(shù): 字數(shù):  

內(nèi)容簡介

  本書每章一個主題,介紹了各種大數(shù)據(jù)分析技術與機器學習算法。本書能夠讓讀者掌握大數(shù)據(jù)分析和機器學習的相關技術的大致脈絡,為之后的進階學習提供參考與指導。本書適合大數(shù)據(jù)技術入門者、希望對大數(shù)據(jù)技術有所了解,以及想要學習大數(shù)據(jù)技術但是不知道應該從何處入手的讀者閱讀。

作者簡介

  Vijay Srinivas Agneeswaran 博士,1998 年于SVCE 的馬德拉斯分校獲得計算機科學與工程專業(yè)的學士學位,2001 年獲取了印度理工學院馬德拉斯分校的碩士學位(研究性質),2008年又獲取了該校的博士學位。他曾在瑞士洛桑的聯(lián)邦理工學院的分布式信息系統(tǒng)實驗室(LSIR)擔任過一年的博士后研究員。之前7 年先后就職于Oracle、Cognizant 及Impetus,對大數(shù)據(jù)及云領域的工程研發(fā)貢獻頗多。目前擔任Impetus 的大數(shù)據(jù)實驗室的執(zhí)行總監(jiān)。他的研發(fā)團隊在專利、論文、受邀的會議發(fā)言以及下一代產(chǎn)品創(chuàng)新方面都處于領導地位。他主要研究的領域包括大數(shù)據(jù)管理、批處理及實時分析,以及大數(shù)據(jù)的機器學習算法的實現(xiàn)范式。最近8 年來,他一直是計算機協(xié)會(ACM)以及電氣和電子工程師協(xié)會(IEEE)的專家成員,并于2012年12 月被推選為IEEE 的資深成員。他在美國、歐洲以及印度的專利局都申請過專利(并持有美國的兩項專利)。他在前沿的期刊及會議,包括IEEE transaction 上都發(fā)表過論文。他還是國內(nèi)外多個會議的特邀發(fā)言人,譬如O’Reilly 的Strata 大數(shù)據(jù)系列會議。最近一次公開發(fā)表論文是在Liebertpub 的大數(shù)據(jù)期刊上。他與妻子及兒女一起居住在班加羅爾,對印度、埃及、巴比倫以及希臘古代的文化與哲學的研究非常感興趣。

圖書目錄

前言.............. X
致謝........... XIII
關于作者 .. XVII

1引言:為什么要超越 Hadoop Map-Reduce ................. 1

Hadoop的適用范圍 ............................ 3
大數(shù)據(jù)分析之機器學習實現(xiàn)的革命 10
第一代機器學習工具 /范式 ........11
第二代機器學習工具 /范式 ........11
第三代機器學習工具 /范式 ....... 14
小結.................... 18
參考文獻 ............ 19

2何為伯克利數(shù)據(jù)分析棧(BDAS) .............................. 23

實現(xiàn) BDAS的動機 ........................... 24
Spark:動機 .............................. 25
Shark:動機 .............................. 26
Mesos:動機 ............................. 28
BDAS的設計及架構 ........................ 29
Spark:高效的集群數(shù)據(jù)處理的范式 ............................... 34
Spark的彈性分布式數(shù)據(jù)集 ...... 36
Spark的實現(xiàn) ............................. 40
Spark VS. 分布式共享內(nèi)存系統(tǒng) .............................. 42
RDD的表達性 .......................... 44
類似 Spark的系統(tǒng) .................... 45
Shark:分布式系統(tǒng)上的 SQL接口 . 46
Spark為 Shark提供的擴展 ...... 47
列內(nèi)存存儲 49
分布式數(shù)據(jù)加載 ........................ 50
完全分區(qū)智能連接 .................... 50
分區(qū)修剪 .... 50
機器學習的支持 ........................ 51
Mesos:集群調(diào)度及管理系統(tǒng) ......... 51
Mesos組件 52
資源分配 .... 54
隔離 ............ 55
容錯性 ........ 57
小結.................... 58
參考文獻 ............ 59

使用 Spark實現(xiàn)機器學習算法 .... 66

機器學習基礎知識 ............................ 66
機器學習:隨機森林示例 ........ 68
邏輯回歸:概述 72
二元形式的邏輯回歸 ................ 73
邏輯回歸估計 ............................ 75
多元邏輯回歸 ............................ 76
Spark中的邏輯回歸算法 ................. 77
支持向量機 ........ 80
復雜決策面 81
支持向量機背后的數(shù)學原理 .... 82
Spark中的支持向量機 ............. 84
Spark對 PMML的支持 .................... 85
PMML結構 ............................... 87
PMML的生產(chǎn)者及消費者 ....... 92
Spark對樸素貝葉斯的 PMML支持 ........................ 94
Spark對線性回歸的 PMML支持 ............................ 95
在 Spark中使用 MLbase進行機器學習 .......................... 97
參考文獻 ............ 99

實現(xiàn)實時的機器學習算法.......... 101

Storm簡介 ....... 101
數(shù)據(jù)流 ...... 103
拓撲 .......... 104
Storm集群 ............................... 105
簡單的實時計算例子 .............. 106
數(shù)據(jù)流組 .. 108
Storm的消息處理擔保 ........... 109
基于 Storm的設計模式 ................... 111
分布式遠程過程調(diào)用 ............... 111
Trident:基于 Storm的實時聚合 ............................115
實現(xiàn)基于 Storm的邏輯回歸算法 ...116
實現(xiàn)基于 Storm的支持向量機算法 .............................. 120
Storm對樸素貝葉斯 PMML的支持 ............................. 122
實時分析的應用 .............................. 126
工業(yè)日志分類 .......................... 126
互聯(lián)網(wǎng)流量過濾器 .................. 130
Storm的替代品 ....................... 131
Spark流 ........... 133
D-Streams的動機 .................... 133
參考文獻 .......... 135

圖處理范式 138

Pregel:基于 BSP的圖處理框架 ... 139
類似的做法 .............................. 141
開源的 Pregel實現(xiàn) ......................... 143
Giraph ...... 143
GoldenORB .............................. 145
Phoebus .................................... 145
Apache Hama........................... 146
Stanford GPS............................ 146
GraphLab ......... 147
GraphLab:多核版本 .............. 148

分布式的 GraphLab ................. 150
PowerGraph ............................. 152
通過 GraphLab實現(xiàn)網(wǎng)頁排名算法 ........................ 156
頂點程序 .. 158
基于 GraphLab實現(xiàn)隨機梯度下降算法 ................ 163
參考文獻 .......... 167

結論:超越Hadoop Map-Reduce的大數(shù)據(jù)分析.......... 171
Hadoop YARN概覽 ........................ 172
Hadoop YARN的動機 ............ 172
作為資源調(diào)度器的 YARN ...... 174
YARN上的其他框架 ...................... 175
大數(shù)據(jù)分析的未來是怎樣的 .......... 177
參考文獻 .......... 180

附錄 A代碼筆記 .......................... 182

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號