注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件Druid實(shí)時(shí)大數(shù)據(jù)分析原理與實(shí)踐

Druid實(shí)時(shí)大數(shù)據(jù)分析原理與實(shí)踐

Druid實(shí)時(shí)大數(shù)據(jù)分析原理與實(shí)踐

定 價(jià):¥79.00

作 者: 歐陽辰 等 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)?網(wǎng)絡(luò) 計(jì)算機(jī)期刊雜志

ISBN: 9787121306235 出版時(shí)間: 2017-03-01 包裝: 平裝
開本: 16開 頁數(shù): 348 字?jǐn)?shù):  

內(nèi)容簡介

  Druid 作為一款開源的實(shí)時(shí)大數(shù)據(jù)分析軟件,最近幾年快速風(fēng)靡全球互聯(lián)網(wǎng)公司,特別是對于海量數(shù)據(jù)和實(shí)時(shí)性要求高的場景,包括廣告數(shù)據(jù)分析、用戶行為分析、數(shù)據(jù)統(tǒng)計(jì)分析、運(yùn)維監(jiān)控分析等,在騰訊、阿里、優(yōu)酷、小米等公司都有大量成功應(yīng)用的案例。《Druid實(shí)時(shí)大數(shù)據(jù)分析原理與實(shí)踐》的目的就是幫助技術(shù)人員更好地深入理解Druid 技術(shù)、大數(shù)據(jù)分析技術(shù)選型、Druid 的安裝和使用、高級特性的使用,也包括一些源代碼的解析,以及一些常見問題的快速回答。Druid 的生態(tài)系統(tǒng)正在不斷擴(kuò)大和成熟,Druid 也正在解決越來越多的業(yè)務(wù)場景。希望本書能幫助技術(shù)人員做出更好的技術(shù)選型,深度了解Druid 的功能和原理,更好地解決大數(shù)據(jù)分析問題?!禗ruid實(shí)時(shí)大數(shù)據(jù)分析原理與實(shí)踐》適合大數(shù)據(jù)分析的從業(yè)人員、IT 人員、互聯(lián)網(wǎng)從業(yè)者閱讀。

作者簡介

  歐陽辰,小米商業(yè)產(chǎn)品部研發(fā)總監(jiān),負(fù)責(zé)廣告架構(gòu)和數(shù)據(jù)分析平臺(tái),擅長數(shù)據(jù)挖掘,大數(shù)據(jù)分析和廣告搜索架構(gòu)。之前,在微軟工作10年,任微軟公司高級開發(fā)經(jīng)理,負(fù)責(zé)Contextual Ads產(chǎn)品研發(fā),開發(fā)Bing Index Serve的核心模塊。持有多項(xiàng)關(guān)于互聯(lián)網(wǎng)廣告及搜索的美國專利。創(chuàng)辦“互聯(lián)居”公眾號(hào),致力于互聯(lián)網(wǎng)廣告技術(shù)的繁榮。畢業(yè)于北京大學(xué)計(jì)算機(jī)系,獲碩士學(xué)歷。劉麒赟,現(xiàn)任Testin云測公司技術(shù)總監(jiān),全面負(fù)責(zé)領(lǐng)導(dǎo)團(tuán)隊(duì)完成數(shù)據(jù)分析產(chǎn)品的研發(fā)。作為資深數(shù)據(jù)技術(shù)專家,曾為多個(gè)著名開源項(xiàng)目(Hadoop/Sqoop/Oozie/Druid)貢獻(xiàn)源代碼,在互聯(lián)網(wǎng)大數(shù)據(jù)分析、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)應(yīng)用等方面擁有豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)和相關(guān)專利。在企業(yè)級產(chǎn)品研發(fā)和客戶支持方面也有著豐富的經(jīng)驗(yàn),并曾為中國多地(包括香港和臺(tái)灣地區(qū))的龍頭企業(yè)成功進(jìn)行實(shí)地支持,為美國與新加坡等地客戶進(jìn)行遠(yuǎn)程支持。之前,曾任OneAPM公司大數(shù)據(jù)架構(gòu)師,以及在IBM公司工作七年并任IBM全球大數(shù)據(jù)平臺(tái)產(chǎn)品BigInsights的Advisory Software Engineer。張海雷,資深工程師。目前在優(yōu)酷土豆廣告技術(shù)團(tuán)隊(duì)負(fù)責(zé)Druid集群的維護(hù)?;钴S在Druid中國用戶組,Druid、Redis和Storm的開源項(xiàng)目代碼貢獻(xiàn)者。高振源,熱愛技術(shù),愛智求真的后臺(tái)開發(fā)和數(shù)據(jù)工程師。先后負(fù)責(zé)過廣告DSP產(chǎn)品、QQ公眾號(hào)精準(zhǔn)投放平臺(tái)、數(shù)據(jù)分析產(chǎn)品等研發(fā)工作。目前在騰訊SNG企業(yè)產(chǎn)品部,負(fù)責(zé)企點(diǎn)產(chǎn)品的數(shù)據(jù)平臺(tái)工作。許哲,騰訊后臺(tái)開發(fā)高級工程師,先后參與了公司企業(yè)產(chǎn)品消息服務(wù)后臺(tái)、QQ公眾號(hào)后臺(tái)、QQ公眾號(hào)精準(zhǔn)投放平臺(tái)等研發(fā),目前在騰訊SNG企業(yè)產(chǎn)品部,負(fù)責(zé)騰訊企點(diǎn)的后臺(tái)和數(shù)據(jù)平臺(tái)開發(fā)工作。

圖書目錄

第1 章初識(shí)Druid 1
1.1 Druid 是什么1
1.2 大數(shù)據(jù)分析和Druid 1
1.3 Druid 的產(chǎn)生3
1.3.1 MetaMarkets 簡介3
1.3.2 失敗總結(jié)4
1.4 Druid 的三個(gè)設(shè)計(jì)原則4
1.4.1 快速查詢(Fast Query) 5
1.4.2 水平擴(kuò)展能力(Horizontal Scalability) 5
1.4.3 實(shí)時(shí)分析(Realtime Analytics) 6
1.5 Druid 的技術(shù)特點(diǎn)6
1.5.1 數(shù)據(jù)吞吐量大6
1.5.2 支持流式數(shù)據(jù)攝入6
1.5.3 查詢靈活且快6
1.5.4 社區(qū)支持力度大7
1.6 Druid 的Hello World 7
1.6.1 Druid 的部署環(huán)境7
1.6.2 Druid 的基本概念7
1.7 系統(tǒng)的擴(kuò)展性9
1.8 性能指標(biāo)10
1.9 Druid 的應(yīng)用場景10
1.9.1 國內(nèi)公司11
1.9.2 國外公司12
1.10 小結(jié)13
參考資料13
第2 章數(shù)據(jù)分析及相關(guān)軟件. 15
2.1 數(shù)據(jù)分析及相關(guān)概念15
2.2 數(shù)據(jù)分析軟件的發(fā)展16
2.3 數(shù)據(jù)分析軟件的分類17
2.3.1 商業(yè)軟件17
2.3.2 時(shí)序數(shù)據(jù)庫22
2.3.3 開源分布式計(jì)算平臺(tái)23
2.3.4 開源分析數(shù)據(jù)庫25
2.3.5 SQL on Hadoop/Spark 31
2.3.6 數(shù)據(jù)分析云服務(wù)33
2.4 小結(jié)34
參考資料34
第3 章架構(gòu)詳解. 35
3.1 Druid 架構(gòu)概覽35
3.2 Druid 架構(gòu)設(shè)計(jì)思想36
3.2.1 索引對樹結(jié)構(gòu)的選擇37
3.2.2 Druid 總體架構(gòu)41
3.2.3 基于DataSource 與Segment 的數(shù)據(jù)結(jié)構(gòu)43
3.3 擴(kuò)展系統(tǒng)45
3.3.1 主要的擴(kuò)展45
3.3.2 下載與加載擴(kuò)展46
3.4 實(shí)時(shí)節(jié)點(diǎn)47
3.4.1 Segment 數(shù)據(jù)文件的制造與傳播47
3.4.2 高可用性與可擴(kuò)展性48
3.5 歷史節(jié)點(diǎn)49
3.5.1 內(nèi)存為王的查詢之道49
3.5.2 層的分組功能50
3.5.3 高可用性與可擴(kuò)展性51
3.6 查詢節(jié)點(diǎn)51
3.6.1 查詢中樞點(diǎn)51
3.6.2 緩存的使用52
3.6.3 高可用性52
3.7 協(xié)調(diào)節(jié)點(diǎn)53
3.7.1 集群數(shù)據(jù)負(fù)載均衡的主宰53
3.7.2 利用規(guī)則管理數(shù)據(jù)生命周期53
3.7.3 副本實(shí)現(xiàn)Segment 的高可用性54
3.7.4 高可用性54
3.8 索引服務(wù)54
3.8.1 主從結(jié)構(gòu)的架構(gòu)54
3.8.2 統(tǒng)治節(jié)點(diǎn)55
3.8.3 中間管理者與苦工56
3.8.4 任務(wù)56
3.9 小結(jié)57
第4 章安裝與配置. 58
4.1 安裝準(zhǔn)備58
4.1.1 安裝包簡介58
4.1.2 安裝環(huán)境59
4.1.3 Druid 外部依賴60
4.2 簡單示例61
4.2.1 服務(wù)運(yùn)行61
4.2.2 數(shù)據(jù)導(dǎo)入與查詢62
4.3 規(guī)劃與部署65
4.4 基本配置68
4.4.1 基礎(chǔ)依賴配置68
4.4.2 數(shù)據(jù)節(jié)點(diǎn)配置調(diào)優(yōu)69
4.4.3 查詢節(jié)點(diǎn)配置調(diào)優(yōu)69
4.5 集群節(jié)點(diǎn)配置示例70
4.5.1 節(jié)點(diǎn)規(guī)劃70
4.5.2 Master 機(jī)器配置72
4.5.3 Data 機(jī)器配置76
4.6 小結(jié)79
第5 章數(shù)據(jù)攝入. 80
5.1 數(shù)據(jù)攝入的兩種方式80
5.1.1 流式數(shù)據(jù)源80
5.1.2 靜態(tài)數(shù)據(jù)源81
5.2 流式數(shù)據(jù)攝取81
5.2.1 以Pull 方式攝取82
5.2.2 用戶行為數(shù)據(jù)攝取案例86
5.2.3 以Push 方式攝取89
5.2.4 索引服務(wù)任務(wù)相關(guān)管理接口91
5.3 靜態(tài)數(shù)據(jù)批量攝取94
5.3.1 以索引服務(wù)方式攝取94
5.3.2 以Hadoop 方式攝取96
5.4 流式與批量數(shù)據(jù)攝取的結(jié)合99
5.4.1 Lambda 架構(gòu)99
5.4.2 解決時(shí)間窗口問題100
5.5 數(shù)據(jù)攝取的其他重要知識(shí)101
5.5.1 數(shù)據(jù)分片101
5.5.2 數(shù)據(jù)復(fù)制106
5.5.3 索引服務(wù)之Tranquility 107
5.5.4 高基數(shù)維度優(yōu)化111
5.6 小結(jié)116
第6 章數(shù)據(jù)查詢. 117
6.1 查詢過程117
6.2 組件118
6.2.1 Filter 118
6.2.2 Aggregator 121
6.2.3 Post-Aggregator 125
6.2.4 Search Query 129
6.2.5 Interval 129
6.2.6 Context 130
6.3 案例介紹131
6.4 Timeseries 134
6.5 TopN 138
6.6 GroupBy 144
6.7 Select 149
6.8 Search 151
6.9 元數(shù)據(jù)查詢153
6.10 小結(jié)156
第7 章高級功能和特性. 157
7.1 近似直方圖(Approximate Histogram) 158
7.1.1 分位數(shù)和直方圖158
7.1.2 實(shí)現(xiàn)原理158
7.1.3 如何使用161
7.1.4 近似直方圖小結(jié)163
7.2 數(shù)據(jù)Sketch 163
7.2.1 DataSketch Aggregator 163
7.2.2 DataSketch Post-Aggregator 167
7.3 地理查詢(Geographic Query) 170
7.3.1 基本原理170
7.3.2 空間索引(Spatial Indexing) 171
7.3.3 空間過濾(Spatial Filter) 171
7.3.4 邊界條件(Boundary Condition) 172
7.3.5 地理查詢小結(jié)172
7.4 Router 172
7.4.1 Router 概覽172
7.4.2 路由規(guī)則174
7.4.3 配置175
7.4.4 路由策略175
7.5 Kaa 索引服務(wù)177
7.5.1 設(shè)計(jì)背景177
7.5.2 實(shí)現(xiàn)178
7.5.3 如何使用182
7.6 Supervisor API 186
7.6.1 創(chuàng)建Supervisor 186
7.6.2 關(guān)閉Supervisor 186
7.6.3 獲取當(dāng)前執(zhí)行的Supervisor 186
7.6.4 獲取Supervisor 規(guī)范186
7.6.5 獲取Supervisor 的狀態(tài)報(bào)告186
7.6.6 獲取所有Supervisor 的歷史187
7.6.7 獲取Supervisor 的歷史187
7.7 最佳實(shí)踐187
7.7.1 容量規(guī)劃187
7.7.2 Supervisor 的持久化187
7.7.3 Schema 的配置與變更188
7.8 小結(jié)188
第8 章核心源代碼探析. 189
8.1 如何編譯Druid 代碼189
8.2 Druid 項(xiàng)目介紹190
8.3 索引結(jié)構(gòu)模塊和層次關(guān)系192
8.4 Column 結(jié)構(gòu)192
8.5 Segment 195
8.6 Query 模塊203
8.6.1 基礎(chǔ)組件203
8.6.2 內(nèi)存池管理206
8.6.3 查詢流程概覽207
8.6.4 查詢引擎225
8.7 Coordinator 模塊229
8.8 小結(jié)237
第9 章監(jiān)控和安全. 238
9.1 Druid 監(jiān)控238
9.1.1 Druid 監(jiān)控指標(biāo)238
9.1.2 常用的監(jiān)控方法245
9.2 Druid 告警250
9.2.1 Druid 告警信息250
9.2.2 Druid 與告警系統(tǒng)的集成250
9.3 Druid 安全251
9.3.1 Druid 與利用Kerberos 加強(qiáng)安全認(rèn)證的系統(tǒng)集成251
9.3.2 集成外部權(quán)限模塊完成用戶授權(quán)255
9.4 小結(jié)256
第10 章實(shí)踐和應(yīng)用. 257
10.1 小米257
10.1.1 場景一:小米統(tǒng)計(jì)服務(wù)258
10.1.2 場景二:廣告平臺(tái)實(shí)時(shí)數(shù)據(jù)分析260
10.2 優(yōu)酷土豆262
10.2.1 需求分析262
10.2.2 技術(shù)選型及工程實(shí)踐263
10.2.3 優(yōu)化策略266
10.3 騰訊267
10.3.1 工程實(shí)踐267
10.3.2 業(yè)務(wù)實(shí)踐270
10.4 藍(lán)海訊通279
10.5 小結(jié)284
第11 章Druid 生態(tài)與展望. 285
11.1 Druid 生態(tài)系統(tǒng)285
11.2 Druid 生態(tài)系統(tǒng)資源288
11.2.1 IAP 288
11.2.2 Plywood 289
11.2.3 PlyQL 294
11.2.4 Pivot 297
11.2.5 Druid-Metrics-Kaa 300
11.2.6 Caravel(Airbnb) 301
11.3 Druid 的社區(qū)討論組302
11.4 Druid 展望302
參考資料303
附錄A 常見問題(FAQ) 304
附錄B 常用參數(shù)表. 312

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)