注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件大數(shù)據(jù)之路:阿里巴巴大數(shù)據(jù)實(shí)踐

大數(shù)據(jù)之路:阿里巴巴大數(shù)據(jù)實(shí)踐

大數(shù)據(jù)之路:阿里巴巴大數(shù)據(jù)實(shí)踐

定 價:¥79.00

作 者: 阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787121314384 出版時間: 2017-07-01 包裝: 平裝
開本: 16開 頁數(shù): 336 字?jǐn)?shù):  

內(nèi)容簡介

  在阿里巴巴集團(tuán)內(nèi),數(shù)據(jù)人員面臨的現(xiàn)實(shí)情況是:集團(tuán)數(shù)據(jù)存儲已經(jīng)達(dá)到EB級別,部分單張表每天的數(shù)據(jù)記錄數(shù)高達(dá)幾千億條;在2016年“雙11購物狂歡節(jié)”的24小時中,支付金額達(dá)到了1207億元人民幣,支付峰值高達(dá)12萬筆/秒,下單峰值達(dá)17.5萬筆/秒,媒體直播大屏處理的總數(shù)據(jù)量高達(dá)百億級別且所有數(shù)據(jù)都需要做到實(shí)時、準(zhǔn)確地對外披露……巨大的信息量給數(shù)據(jù)采集、存儲和計(jì)算都帶來了極大的挑戰(zhàn)。《大數(shù)據(jù)之路:阿里巴巴大數(shù)據(jù)實(shí)踐》就是在此背景下完成的?!洞髷?shù)據(jù)之路:阿里巴巴大數(shù)據(jù)實(shí)踐》中講到的阿里巴巴大數(shù)據(jù)系統(tǒng)架構(gòu),就是為了滿足不斷變化的業(yè)務(wù)需求,同時實(shí)現(xiàn)系統(tǒng)的高度擴(kuò)展性、靈活性以及數(shù)據(jù)展現(xiàn)的高性能而設(shè)計(jì)的?!洞髷?shù)據(jù)之路:阿里巴巴大數(shù)據(jù)實(shí)踐》由阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部組織并完成寫作,是阿里巴巴分享對大數(shù)據(jù)的認(rèn)知,與生態(tài)伙伴共創(chuàng)數(shù)據(jù)智能的重要基石。相信《大數(shù)據(jù)之路:阿里巴巴大數(shù)據(jù)實(shí)踐》中的實(shí)踐和思考對同行會有很大的啟發(fā)和借鑒意義。

作者簡介

  阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部,定位于阿里集團(tuán)數(shù)據(jù)中臺,為阿里生態(tài)內(nèi)外的業(yè)務(wù)、用戶、中小企業(yè)提供全鏈路、全渠道的數(shù)據(jù)服務(wù)。作為阿里大數(shù)據(jù)戰(zhàn)略的核心踐行者,致力于“讓大數(shù)據(jù)賦能商業(yè),創(chuàng)造價值”。經(jīng)過多年的實(shí)踐,數(shù)據(jù)技術(shù)及產(chǎn)品部已經(jīng)構(gòu)建了從底層的數(shù)據(jù)采集、數(shù)據(jù)處理,到挖掘算法、數(shù)據(jù)應(yīng)用服務(wù)以及數(shù)據(jù)產(chǎn)品的全鏈路、標(biāo)準(zhǔn)化的大數(shù)據(jù)體系。通過這個體系,超過EB級別的海量數(shù)據(jù)能夠高效融合,并以秒級的響應(yīng)速度,服務(wù)并驅(qū)動阿里巴巴自身的業(yè)務(wù)和外部千萬用戶的發(fā)展?,F(xiàn)在,阿里巴巴數(shù)據(jù)技術(shù)及產(chǎn)品部正通過技術(shù)和產(chǎn)品上的創(chuàng)新,探索全域數(shù)據(jù)的價值,將阿里在大數(shù)據(jù)上沉淀的能力對外分享,為各行各業(yè)的發(fā)展帶來更多可能性。

圖書目錄

第1章 總述1
第1篇 數(shù)據(jù)技術(shù)篇
第2章 日志采集 8
2.1 瀏覽器的頁面日志采集 8
2.1.1 頁面瀏覽日志采集流程 9
2.1.2 頁面交互日志采集 14
2.1.3 頁面日志的服務(wù)器端清洗和預(yù)處理 15
2.2 無線客戶端的日志采集 16
2.2.1 頁面事件 17
2.2.2 控件點(diǎn)擊及其他事件 18
2.2.3 特殊場景 19
2.2.4 H5 & Native日志統(tǒng)一 20
2.2.5 設(shè)備標(biāo)識 22
2.2.6 日志傳輸 23
2.3 日志采集的挑戰(zhàn) 24
2.3.1 典型場景 24
2.3.2 大促保障 26
第3章 數(shù)據(jù)同步 29
3.1 數(shù)據(jù)同步基礎(chǔ) 29
3.1.1 直連同步 30
3.1.2 數(shù)據(jù)文件同步 30
3.1.3 數(shù)據(jù)庫日志解析同步 31
3.2 阿里數(shù)據(jù)倉庫的同步方式 35
3.2.1 批量數(shù)據(jù)同步 35
3.2.2 實(shí)時數(shù)據(jù)同步 37
3.3 數(shù)據(jù)同步遇到的問題與解決方案 39
3.3.1 分庫分表的處理 39
3.3.2 高效同步和批量同步 41
3.3.3 增量與全量同步的合并 42
3.3.4 同步性能的處理 43
3.3.5 數(shù)據(jù)漂移的處理 45
第4章 離線數(shù)據(jù)開發(fā) 48
4.1 數(shù)據(jù)開發(fā)平臺 48
4.1.1 統(tǒng)一計(jì)算平臺 49
4.1.2 統(tǒng)一開發(fā)平臺 53
4.2 任務(wù)調(diào)度系統(tǒng) 58
4.2.1 背景 58
4.2.2 介紹 60
4.2.3 特點(diǎn)及應(yīng)用 65
第5章 實(shí)時技術(shù) 68
5.1 簡介 69
5.2 流式技術(shù)架構(gòu) 71
5.2.1 數(shù)據(jù)采集 72
5.2.2 數(shù)據(jù)處理 74
5.2.3 數(shù)據(jù)存儲 78
5.2.4 數(shù)據(jù)服務(wù) 80
5.3 流式數(shù)據(jù)模型 80
5.3.1 數(shù)據(jù)分層 80
5.3.2 多流關(guān)聯(lián) 83
5.3.3 維表使用 84
5.4 大促挑戰(zhàn)&保障 86
5.4.1 大促特征 86
5.4.2 大促保障 88
第6章 數(shù)據(jù)服務(wù) 91
6.1 服務(wù)架構(gòu)演進(jìn) 91
6.1.1 DWSOA 92
6.1.2 OpenAPI 93
6.1.3 SmartDQ 94
6.1.4 統(tǒng)一的數(shù)據(jù)服務(wù)層 96
6.2 技術(shù)架構(gòu) 97
6.2.1 SmartDQ 97
6.2.2 iPush 100
6.2.3 Lego 101
6.2.4 uTiming 102
6.3 最佳實(shí)踐 103
6.3.1 性能 103
6.3.2 穩(wěn)定性 111
第7章 數(shù)據(jù)挖掘 116
7.1 數(shù)據(jù)挖掘概述 116
7.2 數(shù)據(jù)挖掘算法平臺 117
7.3 數(shù)據(jù)挖掘中臺體系 119
7.3.1 挖掘數(shù)據(jù)中臺 120
7.3.2 挖掘算法中臺 122
7.4 數(shù)據(jù)挖掘案例 123
7.4.1 用戶畫像 123
7.4.2 互聯(lián)網(wǎng)反作弊 125
第2篇 數(shù)據(jù)模型篇
第8章 大數(shù)據(jù)領(lǐng)域建模綜述 130
8.1 為什么需要數(shù)據(jù)建模 130
8.2 關(guān)系數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)倉庫 131
8.3 從OLTP和OLAP系統(tǒng)的區(qū)別看模型方法論的選擇 132
8.4 典型的數(shù)據(jù)倉庫建模方法論 132
8.4.1 ER模型 132
8.4.2 維度模型 133
8.4.3 Data Vault模型 134
8.4.4 Anchor模型 135
8.5 阿里巴巴數(shù)據(jù)模型實(shí)踐綜述 136
第9章 阿里巴巴數(shù)據(jù)整合及管理體系 138
9.1 概述 138
9.1.1 定位及價值 139
9.1.2 體系架構(gòu) 139
9.2 規(guī)范定義 140
9.2.1 名詞術(shù)語 141
9.2.2 指標(biāo)體系 141
9.3 模型設(shè)計(jì) 148
9.3.1 指導(dǎo)理論 148
9.3.2 模型層次 148
9.3.3 基本原則 150
9.4 模型實(shí)施 152
9.4.1 業(yè)界常用的模型實(shí)施過程 152
9.4.2 OneData實(shí)施過程 154
第10章 維度設(shè)計(jì) 159
10.1 維度設(shè)計(jì)基礎(chǔ) 159
10.1.1 維度的基本概念 159
10.1.2 維度的基本設(shè)計(jì)方法 160
10.1.3 維度的層次結(jié)構(gòu) 162
10.1.4 規(guī)范化和反規(guī)范化 163
10.1.5 一致性維度和交叉探查 165
10.2 維度設(shè)計(jì)高級主題 166
10.2.1 維度整合 166
10.2.2 水平拆分 169
10.2.3 垂直拆分 170
10.2.4 歷史歸檔 171
10.3 維度變化 172
10.3.1 緩慢變化維 172
10.3.2 快照維表 174
10.3.3 極限存儲 175
10.3.4 微型維度 178
10.4 特殊維度 180
10.4.1 遞歸層次 180
10.4.2 行為維度 184
10.4.3 多值維度 185
10.4.4 多值屬性 187
10.4.5 雜項(xiàng)維度 188
第11章 事實(shí)表設(shè)計(jì) 190
11.1 事實(shí)表基礎(chǔ) 190
11.1.1 事實(shí)表特性 190
11.1.2 事實(shí)表設(shè)計(jì)原則 191
11.1.3 事實(shí)表設(shè)計(jì)方法 193
11.2 事務(wù)事實(shí)表 196
11.2.1 設(shè)計(jì)過程 196
11.2.2 單事務(wù)事實(shí)表 200
11.2.3 多事務(wù)事實(shí)表 202
11.2.4 兩種事實(shí)表對比 206
11.2.5 父子事實(shí)的處理方式 208
11.2.6 事實(shí)的設(shè)計(jì)準(zhǔn)則 209
11.3 周期快照事實(shí)表 210
11.3.1 特性 211
11.3.2 實(shí)例 212
11.3.3 注意事項(xiàng) 217
11.4 累積快照事實(shí)表 218
11.4.1 設(shè)計(jì)過程 218
11.4.2 特點(diǎn) 221
11.4.3 特殊處理 223
11.4.4 物理實(shí)現(xiàn) 225
11.5 三種事實(shí)表的比較 227
11.6 無事實(shí)的事實(shí)表 228
11.7 聚集型事實(shí)表 228
11.7.1 聚集的基本原則 229
11.7.2 聚集的基本步驟 229
11.7.3 阿里公共匯總層 230
11.7.4 聚集補(bǔ)充說明 234
第3篇 數(shù)據(jù)管理篇
第12章 元數(shù)據(jù) 236
12.1 元數(shù)據(jù)概述 236
12.1.1 元數(shù)據(jù)定義 236
12.1.2 元數(shù)據(jù)價值 237
12.1.3 統(tǒng)一元數(shù)據(jù)體系建設(shè) 238
12.2 元數(shù)據(jù)應(yīng)用 239
12.2.1 Data Profile 239
12.2.2 元數(shù)據(jù)門戶 241
12.2.3 應(yīng)用鏈路分析 241
12.2.4 數(shù)據(jù)建模 242
12.2.5 驅(qū)動ETL開發(fā) 243
第13章 計(jì)算管理 245
13.1 系統(tǒng)優(yōu)化 245
13.1.1 HBO 246
13.1.2 CBO 249
13.2 任務(wù)優(yōu)化 256
13.2.1 Map傾斜 257
13.2.2 Join傾斜 261
13.2.3 Reduce傾斜 269
第14章 存儲和成本管理 275
14.1 數(shù)據(jù)壓縮 275
14.2 數(shù)據(jù)重分布 276
14.3 存儲治理項(xiàng)優(yōu)化 277
14.4 生命周期管理 278
14.4.1 生命周期管理策略 278
14.4.2 通用的生命周期管理矩陣 280
14.5 數(shù)據(jù)成本計(jì)量 283
14.6 數(shù)據(jù)使用計(jì)費(fèi) 284
第15章 數(shù)據(jù)質(zhì)量 285
15.1 數(shù)據(jù)質(zhì)量保障原則 285
15.2 數(shù)據(jù)質(zhì)量方法概述 287
15.2.1 消費(fèi)場景知曉 289
15.2.2 數(shù)據(jù)加工過程卡點(diǎn)校驗(yàn) 292
15.2.3 風(fēng)險點(diǎn)監(jiān)控 295
15.2.4 質(zhì)量衡量 299
第4篇 數(shù)據(jù)應(yīng)用篇
第16章 數(shù)據(jù)應(yīng)用 304
16.1 生意參謀 305
16.1.1 背景概述 305
16.1.2 功能架構(gòu)與技術(shù)能力 307
16.1.3 商家應(yīng)用實(shí)踐 310
16.2 對內(nèi)數(shù)據(jù)產(chǎn)品平臺 313
16.2.1 定位 313
16.2.2 產(chǎn)品建設(shè)歷程 314
16.2.3 整體架構(gòu)介紹 317
附錄A 本書插圖索引 320

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號