注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)設(shè)計(jì)/管理實(shí)時(shí)分析:流數(shù)據(jù)的分析與可視化技術(shù)

實(shí)時(shí)分析:流數(shù)據(jù)的分析與可視化技術(shù)

實(shí)時(shí)分析:流數(shù)據(jù)的分析與可視化技術(shù)

定 價(jià):¥79.00

作 者: 拜倫·埃利斯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 數(shù)據(jù)庫(kù)

購(gòu)買這本書(shū)可以去


ISBN: 9787111532163 出版時(shí)間: 2016-04-01 包裝: 平裝
開(kāi)本: 128開(kāi) 頁(yè)數(shù): 299 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)共11章。第1章介紹常見(jiàn)的流數(shù)據(jù)的來(lái)源、應(yīng)用以及三個(gè)重要特性:持續(xù)交付、結(jié)構(gòu)松散和高基數(shù),并闡釋對(duì)流數(shù)據(jù)使用基礎(chǔ)架構(gòu)和算法的重要性。第2~6章介紹實(shí)時(shí)流架構(gòu)的各組件涉及的軟件、框架和方法。第2章概述實(shí)時(shí)流架構(gòu)設(shè)計(jì)涉及的組件、特性、編程語(yǔ)言等。第3章介紹實(shí)時(shí)流架構(gòu)的服務(wù)配置和協(xié)調(diào),重點(diǎn)介紹協(xié)調(diào)服務(wù)器ZooKeeper。第4章闡述實(shí)時(shí)流架構(gòu)中數(shù)據(jù)流程的管理,涉及用來(lái)管理數(shù)據(jù)流程的兩個(gè)軟件包Kafka和Flume。第5章分析流數(shù)據(jù)的處理,涉及如何用Storm或Samza來(lái)處理數(shù)據(jù)。第6章介紹流數(shù)據(jù)的存儲(chǔ)問(wèn)題。第7~11章重點(diǎn)關(guān)注流數(shù)據(jù)架構(gòu)的應(yīng)用構(gòu)建問(wèn)題。第7章討論從流環(huán)境向最終用戶的數(shù)據(jù)交付問(wèn)題。這是構(gòu)建儀表板以及其他監(jiān)控應(yīng)用所使用的核心機(jī)制。第8章涵蓋流環(huán)境下的聚集計(jì)算問(wèn)題,特別是對(duì)多分辨率時(shí)間序列數(shù)據(jù)的聚集計(jì)算問(wèn)題。第9章簡(jiǎn)要介紹統(tǒng)計(jì)學(xué)和概率論的基礎(chǔ)知識(shí)。第10章討論略圖,略圖通常具有更快的更新速度和更小的內(nèi)存占用空間,特別適合流環(huán)境。第11章討論聚集計(jì)算之外能夠應(yīng)用于流數(shù)據(jù)的一些更深入的話題。

作者簡(jiǎn)介

  作 者 簡(jiǎn) 介Byron Ellis是Spongecell公司的CTO,該公司是一個(gè)總部位于紐約的廣告技術(shù)公司,在舊金山、芝加哥和倫敦設(shè)有辦事處。他負(fù)責(zé)公司的研發(fā)和計(jì)算基礎(chǔ)設(shè)施的維護(hù)工作,在加盟Spongecell之前,他是在線交互技術(shù)“領(lǐng)頭羊”企業(yè)Liveperson公司的首席數(shù)據(jù)科學(xué)家。他還在當(dāng)時(shí)世界最大的廣告交換公司之一adBrite擔(dān)任過(guò)多項(xiàng)職務(wù)。他擁有哈佛大學(xué)統(tǒng)計(jì)學(xué)博士學(xué)位,攻讀博士學(xué)位期間主要研究高吞吐量生物學(xué)實(shí)驗(yàn)數(shù)據(jù)中網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)方法。技術(shù)編輯簡(jiǎn)介JoseQuinteiro有20年技術(shù)經(jīng)驗(yàn),參與過(guò)許多終端用戶、企業(yè)、Web軟件系統(tǒng)和應(yīng)用的設(shè)計(jì)與開(kāi)發(fā)工作。他對(duì)于包括前后端的設(shè)計(jì)和實(shí)現(xiàn)在內(nèi)的全套Web技術(shù)有著豐富經(jīng)驗(yàn)。Jose在威廉瑪麗學(xué)院獲得化學(xué)學(xué)士學(xué)位。Luke Hornof擁有計(jì)算機(jī)科學(xué)博士學(xué)位,曾參與創(chuàng)建了多個(gè)成功的高科技初創(chuàng)企業(yè)。他在編程語(yǔ)言方面發(fā)表了十多篇同行評(píng)審的論文,曾為微處理器、廣告和音樂(lè)行業(yè)開(kāi)發(fā)過(guò)商用軟件。他目前的興趣之一是使用數(shù)據(jù)分析技術(shù)來(lái)改善Web和移動(dòng)應(yīng)用。Ben Peirce在Spongecell廣告技術(shù)公司負(fù)責(zé)研究工作和基礎(chǔ)設(shè)施的管理。加盟Spongecell之前,他在醫(yī)療健康技術(shù)初創(chuàng)企業(yè)擔(dān)任過(guò)多項(xiàng)職務(wù),他還是SETMedia公司的聯(lián)合創(chuàng)始人之一,該公司是一個(gè)視頻廣告技術(shù)公司。他在哈佛大學(xué)工程與應(yīng)用科學(xué)學(xué)院獲得博士學(xué)位,研究方向是控制系統(tǒng)和機(jī)器人。

圖書(shū)目錄

目  錄

譯者序

前言

致謝

作者簡(jiǎn)介

技術(shù)編輯簡(jiǎn)介

第1章 流數(shù)據(jù)簡(jiǎn)介1

1.1流數(shù)據(jù)的來(lái)源2

1.1.1運(yùn)行監(jiān)控2

1.1.2Web分析2

1.1.3在線廣告3

1.1.4社交媒體3

1.1.5移動(dòng)數(shù)據(jù)和物聯(lián)網(wǎng)4

1.2流數(shù)據(jù)的特別之處5

1.2.1始終在線,持續(xù)流動(dòng)5

1.2.2松散結(jié)構(gòu)5

1.2.3高基數(shù)的存儲(chǔ)6

1.3基礎(chǔ)架構(gòu)和算法6

1.4總結(jié)7

第一部分 流分析架構(gòu)

第2章 實(shí)時(shí)流架構(gòu)設(shè)計(jì)10

2.1實(shí)時(shí)架構(gòu)的組件10

2.1.1數(shù)據(jù)采集11

2.1.2數(shù)據(jù)流程11

2.1.3數(shù)據(jù)處理13

2.1.4數(shù)據(jù)存儲(chǔ)13

2.1.5數(shù)據(jù)交付14

2.2實(shí)時(shí)架構(gòu)的特性16

2.2.1高可用性16

2.2.2低延遲17

2.2.3水平可擴(kuò)展性17

2.3實(shí)時(shí)編程語(yǔ)言18

2.3.1Java18

2.3.2Scala和Clojure19

2.3.3JavaScript19

2.3.4Go語(yǔ)言20

2.4實(shí)時(shí)架構(gòu)概覽20

2.4.1數(shù)據(jù)采集20

2.4.2數(shù)據(jù)流程21

2.4.3數(shù)據(jù)處理21

2.4.4數(shù)據(jù)存儲(chǔ)21

2.4.5數(shù)據(jù)交付22

2.5總結(jié)22

第3章 服務(wù)配置和協(xié)調(diào)24

3.1 配置和協(xié)調(diào)系統(tǒng)的研發(fā)動(dòng)機(jī)24

3.2 維護(hù)分布式狀態(tài)25

3.2.1不可靠的網(wǎng)絡(luò)連接25

3.2.2時(shí)鐘同步25

3.2.3不可靠環(huán)境下的一致性25

3.3Apache ZooKeeper26

3.3.1znode27

3.3.2監(jiān)視和通知28

3.3.3保持一致性28

3.3.4創(chuàng)建ZooKeeper集群28

3.3.5ZooKeeper本地Java客戶端33

3.3.6Curator客戶端39

3.3.7Curator Recipes組件45

3.4總結(jié)50

第4章 流分析中的數(shù)據(jù)流程管理52

4.1分布式數(shù)據(jù)流程52

4.1.1至少交付一次52

4.1.2“n+1”問(wèn)題53

4.2Apache Kafka:高吞吐量分布式消息機(jī)制54

4.2.1設(shè)計(jì)與實(shí)現(xiàn)54

4.2.2配置Kafka環(huán)境57

4.2.3與Kafka代理交互65

4.3Apache Flume:分布式日志采集系統(tǒng) 66

4.3.1Flume agent67

4.3.2配置agent68

4.3.3Flume數(shù)據(jù)模型68

4.3.4channel選擇器69

4.3.5Flume source71

4.3.6Flume sink78

4.3.7sink processor80

4.3.8Flume channel80

4.3.9Flume Interceptor81

4.3.10集成定制Flume組件83

4.3.11運(yùn)行Flume agent83

4.4總結(jié)83

第5章 流數(shù)據(jù)的處理85

5.1分布式流數(shù)據(jù)處理85

5.1.1協(xié)調(diào)86

5.1.2分區(qū)和融合86

5.1.3事務(wù)86

5.2用Storm處理數(shù)據(jù)86

5.2.1Storm集群的組件87

5.2.2配置Storm集群88

5.2.3分布式集群89

5.2.4本地集群92

5.2.5Storm拓?fù)?2

5.2.6實(shí)現(xiàn)bolt95

5.2.7實(shí)現(xiàn)并使用spout99

5.2.8分布式遠(yuǎn)程過(guò)程調(diào)用104

5.2.9Trident:Storm的DSL105

5.3用Samza處理數(shù)據(jù)111

5.3.1Apache YARN111

5.3.2從YARN和Samza開(kāi)始112

5.3.3將Samza集成進(jìn)數(shù)據(jù)流程115

5.3.4Samza作業(yè)116

5.4總結(jié)122

第6章 流數(shù)據(jù)的存儲(chǔ)123

6.1一致性哈希123

6.2“NoSQL”存儲(chǔ)系統(tǒng)124

6.2.1Redis125

6.2.2MongoDB132

6.2.3Cassandra150

6.3其他存儲(chǔ)技術(shù)159

6.3.1關(guān)系數(shù)據(jù)庫(kù)160

6.3.2分布式內(nèi)存數(shù)據(jù)網(wǎng)格160

6.4存儲(chǔ)技術(shù)的選擇160

6.4.1鍵-值存儲(chǔ)160

6.4.2文檔存儲(chǔ)160

6.4.3分布式哈希表存儲(chǔ)161

6.4.4內(nèi)存網(wǎng)格161

6.4.5關(guān)系數(shù)據(jù)庫(kù)161

6.5數(shù)據(jù)倉(cāng)庫(kù)161

6.5.1將Hadoop作為ETL和數(shù)據(jù)倉(cāng)庫(kù)162

6.5.2Lambda架構(gòu)166

6.6總結(jié)166

第二部分 流分析與可視化

第7章 流度量的交付168

7.1流Web應(yīng)用168

7.1.1使用Node169

7.1.2用NPM管理Node項(xiàng)目171

7.1.3基于Node開(kāi)發(fā)Web應(yīng)用174

7.1.4 基本的流儀表板176

7.1.5 向Web應(yīng)用加入流180

7.2 數(shù)據(jù)可視化190

7.2.1 HTML5 Canvas和內(nèi)聯(lián)SVG190

7.2.2 數(shù)據(jù)驅(qū)動(dòng)文檔:D3.js196

7.2.3 高層工具204

7.3 移動(dòng)流應(yīng)用208

7.4 總結(jié)209

第8章 精確的聚集計(jì)算和交付211

8.1 定時(shí)計(jì)數(shù)與求和214

8.1.1 基于Bolt的計(jì)數(shù)214

8.1.2 基于Trident的計(jì)數(shù)216

8.1.3 基于Samza的計(jì)數(shù)217

8.2 多分辨率時(shí)間序列的聚集計(jì)算218

8.3 隨機(jī)優(yōu)化222

8.4 時(shí)間序列數(shù)據(jù)的交付223

8.4.1 用D3.js繪制帶狀圖224

8.4.2 高速Canvas圖225

8.4.3 地平線圖226

8.5 總結(jié)227

第9章 流數(shù)據(jù)的統(tǒng)計(jì)近似229

9.1 數(shù)值計(jì)算庫(kù)229

9.2 概率和分布230

9.2.1 期望和方差231

9.2.2 統(tǒng)計(jì)分布232

9.2.3 離散分布232

9.2.4 連續(xù)分布233

9.2.5 聯(lián)合分布235

9.3 參數(shù)估計(jì)236

9.3.1 參數(shù)推斷236

9.3.2 Delta方法237

9.3.3 分布不等式238

9.4 隨機(jī)數(shù)產(chǎn)生器238

9.5 抽樣過(guò)程242

9.5.1 從固定數(shù)據(jù)集中抽樣242

9.5.2 從流數(shù)據(jù)中抽樣243

9.5.3 有偏流抽樣244

9.6 總結(jié)245

第10章 使用略圖近似流數(shù)據(jù)246

10.1 寄存器和哈希函數(shù)246

10.1.1 寄存器247

10.1.2 哈希函數(shù)247

10.2 集合249

10.3 Bloom Filter251

10.3.1 算法251

10.3.2 Bloom Filter大小的選擇253

10.3.3 并集和交集253

10.3.4 基數(shù)估計(jì)254

10.3.5 有趣的變體255

10.4 Distinct Value略圖258

10.4.1 Min-Count算法258

10.4.2 HyperLogLog算法260

10.5 Count-Min略圖264

10.5.1 點(diǎn)查詢265

10.5.2 Count-Min略圖的實(shí)現(xiàn)265

10.5.3 Top-K和“Heavy Hitters”266

10.5.4 范圍查詢和分位數(shù)查詢268

10.6 其他應(yīng)用270

10.7 總結(jié)271

第11章 流數(shù)據(jù)的應(yīng)用272

11.1 實(shí)時(shí)數(shù)據(jù)模型273

11.1.1 簡(jiǎn)單時(shí)間序列模型273

11.1.2 線性模型276

11.1.3 邏輯回歸280

11.1.4 神經(jīng)網(wǎng)絡(luò)模型281

11.2 用模型預(yù)測(cè)289

11.2.1 指數(shù)平滑法289

11.2.2 回歸法291

11.2.3 神經(jīng)網(wǎng)絡(luò)法293

11.3 監(jiān)控294

11.3.1 離群點(diǎn)檢測(cè)294

11.3.2 變化檢測(cè)296

11.4 實(shí)時(shí)優(yōu)化297

11.5 總結(jié)298  

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)