目 錄
譯者序
前言
致謝
作者簡介
第一部分 大數據
第1章 大數據簡介2
1.1 引言2
1.2 大數據2
1.3 大數據的定義4
1.4 為什么需要大數據?為什么是現在4
1.5 大數據示例5
1.5.1 社交媒體的文章5
1.5.2 調查數據分析6
1.5.3 調查數據7
1.5.4 氣象數據8
1.5.5 Twitter數據8
1.5.6 集成和分析8
1.5.7 附加數據的類型10
1.6 總結11
延伸閱讀11
第2章 使用大數據12
2.1 引言12
2.2 數據爆炸12
2.3 數據體量13
2.3.1 機器數據14
2.3.2 應用日志14
2.3.3 點擊流日志14
2.3.4 外部或第三方數據15
2.3.5 電子郵件15
2.3.6 合同15
2.3.7 地理信息系統和地理空間數據16
2.3.8 示例:Funshots公司17
2.4 數據速度19
2.4.1 Amazon、Facebook、Yahoo和Google19
2.4.2 傳感器數據19
2.4.3 移動網絡20
2.4.4 社交媒體20
2.5 數據多樣性21
2.6 總結22
第3章 大數據處理架構23
3.1 引言23
3.2 再論數據處理23
3.3 數據處理技術24
3.4 數據處理基礎設施的挑戰(zhàn)25
3.4.1 存儲25
3.4.2 傳輸25
3.4.3 處理26
3.4.4 速度或吞吐量26
3.5 全共享架構與無共享架構的比較26
3.5.1 全共享架構27
3.5.2 無共享架構27
3.5.3 OLTP與數據倉庫28
3.6 大數據處理28
3.6.1 基礎設施方面31
3.6.2 數據處理方面32
3.7 電信大數據研究32
3.7.1 基礎設施34
3.7.2 數據處理34
第4章 大數據技術簡介35
4.1 引言35
4.2 分布式數據處理36
4.3 大數據處理需求38
4.4 大數據處理技術39
4.5 Hadoop42
4.5.1 Hadoop核心組件43
4.5.2 Hadoop總結69
4.6 NoSQL69
4.6.1 CAP定理69
4.6.2 鍵-值對:Voldemort70
4.6.3 列簇存儲:Cassandra70
4.6.4 文檔數據庫:Riak76
4.6.5 圖數據庫77
4.6.6 NoSQL小結78
4.7 文本ETL處理78
延伸閱讀79
第5章 大數據驅動的商業(yè)價值80
5.1 引言80
5.2 案例研究1:傳感器數據81
5.2.1 摘要81
5.2.2 Vestas81
5.2.3 概述81
5.2.4 利用風力發(fā)電81
5.2.5 把氣候變成資本82
5.2.6 跟蹤大數據的挑戰(zhàn)83
5.2.7 維持數據中心的能源效率83
5.3 案例研究2:流數據84
5.3.1 摘要84
5.3.2 監(jiān)控和安全:TerraEchos84
5.3.3 需求84
5.3.4 解決方案84
5.3.5 效益84
5.3.6 先進的光纖網結合實時流數據85
5.3.7 解決方案組件85
5.3.8 擴展安全邊界創(chuàng)建戰(zhàn)略優(yōu)勢85
5.3.9 關聯傳感器數據使得假陽性率為零86
5.4 案例研究3:通過大數據分析改善患者預后86
5.4.1 摘要86
5.4.2 業(yè)務目標87
5.4.3 挑戰(zhàn)87
5.4.4 概述:給從業(yè)人員新的洞察以指導患者護理87
5.4.5 挑戰(zhàn):將傳統數據倉庫生態(tài)系統與大數據融合87
5.4.6 解決方案:為大數據分析做好準備88
5.4.7 結果:消除“數據陷阱”88
5.4.8 為什么是aster88
5.4.9 關于Aurora89
5.5 案例研究4:安大略大學技術學院—利用關鍵數據,提供積極的患者護理89
5.5.1 摘要89
5.5.2 概述89
5.5.3 商業(yè)上的收益90
5.5.4 更好地利用數據資源90
5.5.5 智慧醫(yī)療保健91
5.5.6 解決方案組件91
5.5.7 融合人類知識與技術92
5.5.8 擴大Artemis的影響92
5.6 案例研究5:微軟SQL Server客戶解決方案93
5.6.1 客戶畫像93
5.6.2 解決方案的亮點93
5.6.3 業(yè)務需求93
5.6.4 解決方案94
5.6.5 好處94
5.7 案例研究6:以客戶為中心的數據集成95
5.7.1 概述95
5.7.2 解決方案設計98
5.7.3 促成更好的交叉銷售和追加銷售的機會99
5.8 總結100
第二部分 數據倉庫
第6章 再論數據倉庫102
6.1 引言102
6.2 傳統的數據倉庫或DW 1.0103
6.2.1 數據架構103
6.2.2 基礎設施104
6.2.3 數據倉庫的陷阱106
6.2.4 建立數據倉庫的架構方法111
6.3 DW 2.0113
6.3.1 Inmon的DW 2.0概述114
6.3.2 DSS 2.0概述115
6.4 總結116
延伸閱讀116
第7章 數據倉庫的再造118
7.1 引言118
7.2 企業(yè)數據倉庫平臺118
7.2.1 事務型系統119
7.2.2 運營數據存儲區(qū)119
7.2.3 分段區(qū)120
7.2.4 數據倉庫120
7.2.5 數據集市120
7.2.6 分析型數據庫121
7.2.7 數據倉庫的問題121
7.3 再造數據倉庫的選擇122
7.3.1 平臺再造122
7.3.2 平臺工程123
7.3.3 數據工程124
7.4 使數據倉庫現代化125
7.5 使數據倉庫現代化的案例研究127
7.5.1 當前狀態(tài)分析127
7.5.2 推薦127
7.5.3 現代化的業(yè)務收益128
7.5.4 一體機的選擇過程128
7.6 總結132
第8章 數據倉庫中的工作負載管理133
8.1 引言133
8.2 當前狀態(tài)133
8.3 工作負載的定義134
8.4 了解工作負載135
8.4.1 數據倉庫輸出136
8.4.2 數據倉庫輸入137
8.5 查詢分類138
8.5.1 寬/寬138
8.5.2 寬/窄139
8.5.3 窄/寬139
8.5.4 窄/窄139
8.5.5 非結構化/半結構化數據140
8.6 ETL和CDC的工作負載140
8.7 度量141
8.8 當前系統設計的局限142
8.9 新工作負載和大數據143
8.10 技術選擇144
8.11 總結144
第9章 應用到數據倉庫的新技術145
9.1 引言145
9.2