定 價:¥98.00
作 者: | 王雪迎 著 |
出版社: | 清華大學(xué)出版社 |
叢編項: | |
標 簽: | 計算機/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫 |
ISBN: | 9787302498025 | 出版時間: | 2018-03-01 | 包裝: | 平裝 |
開本: | 16開 | 頁數(shù): | 578 | 字數(shù): |
目 錄
*部分 HAWQ技術(shù)解析
第1章 HAWQ概述 3
1.1 SQL-on-Hadoop 3
1.1.1 對SQL-on-Hadoop的期待 3
1.1.2 SQL-on-Hadoop的實現(xiàn)方式 4
1.2 HAWQ簡介 6
1.2.1 歷史與現(xiàn)狀 7
1.2.2 功能特性 7
1.3 HAWQ系統(tǒng)架構(gòu) 9
1.3.1 系統(tǒng)架構(gòu) 10
1.3.2 內(nèi)部架構(gòu) 11
1.4 為什么選擇HAWQ 12
1.4.1 常用SQL-on-Hadoop產(chǎn)品的不足 12
1.4.2 HAWQ的可行性 13
1.4.3 適合DBA的解決方案 18
1.5 小結(jié) 18
第2章 HAWQ安裝部署 19
2.1 安裝規(guī)劃 19
2.1.1 選擇安裝介質(zhì) 19
2.1.2 選擇HAWQ版本 20
2.1.3 確認Ambari與HDP的版本兼容性 20
2.2 安裝前準備 21
2.2.1 確認*小系統(tǒng)需求 21
2.2.2 準備系統(tǒng)安裝環(huán)境 22
2.2.3 建立本地Repository 24
2.3 安裝Ambari 25
2.4 安裝HDP集群 27
2.5 安裝HAWQ 29
2.6 啟動與停止HAWQ 34
2.6.1 基本概念 34
2.6.2 操作環(huán)境 34
2.6.3 基本操作 36
2.7 小結(jié) 40
第3章 連接管理 41
3.1 配置客戶端身份認證 41
3.2 管理角色與權(quán)限 45
3.2.1 HAWQ中的角色與權(quán)限 45
3.2.2 管理角色及其成員 46
3.2.3 管理對象權(quán)限 48
3.2.4 口令加密 49
3.3 psql連接HAWQ 50
3.4 Kettle連接HAWQ 52
3.5 連接常見問題 55
3.6 小結(jié) 56
第4章 數(shù)據(jù)庫對象管理 57
4.1 創(chuàng)建和管理數(shù)據(jù)庫 57
4.2 創(chuàng)建和管理表空間 61
4.3 創(chuàng)建和管理模式 65
4.4 創(chuàng)建和管理表 72
4.4.1 創(chuàng)建表 72
4.4.2 刪除表 74
4.4.3 查看表對應(yīng)的HDFS文件 74
4.5 創(chuàng)建和管理視圖 76
4.6 管理其他對象 77
4.7 小結(jié) 78
第5章 分區(qū)表 79
5.1 HAWQ中的分區(qū)表 79
5.2 確定分區(qū)策略 80
5.3 創(chuàng)建分區(qū)表 81
5.3.1 范圍分區(qū)與列表分區(qū) 81
5.3.2 多級分區(qū) 86
5.3.3 對已存在的非分區(qū)表進行分區(qū) 86
5.4 分區(qū)消除 87
5.5 分區(qū)表維護 91
5.6 小結(jié) 98
第6章 存儲管理 99
6.1 數(shù)據(jù)存儲選項 99
6.2 數(shù)據(jù)分布策略 103
6.2.1 數(shù)據(jù)分布策略概述 103
6.2.2 選擇數(shù)據(jù)分布策略 104
6.2.3 數(shù)據(jù)分布用法 108
6.3 從已有的表創(chuàng)建新表 111
6.4 小結(jié) 117
第7章 資源管理 118
7.1 HAWQ資源管理概述 118
7.1.1 全局資源管理 118
7.1.2 HAWQ資源隊列 119
7.1.3 資源管理器配置原則 119
7.2 配置獨立資源管理器 120
7.3 整合YARN 123
7.4 管理資源隊列 129
7.5 查詢資源管理器狀態(tài) 134
7.6 小結(jié) 137
第8章 數(shù)據(jù)管理 138
8.1 基本數(shù)據(jù)操作 138
8.2 數(shù)據(jù)裝載與卸載 141
8.2.1 gpfdist協(xié)議及其外部表 141
8.2.2 基于Web的外部表 148
8.2.3 使用外部表裝載數(shù)據(jù) 151
8.2.4 外部表錯誤處理 151
8.2.5 使用hawq load裝載數(shù)據(jù) 152
8.2.6 使用COPY復(fù)制數(shù)據(jù) 155
8.2.7 卸載數(shù)據(jù) 157
8.2.8 hawq register 159
8.2.9 格式化數(shù)據(jù)文件 159
8.3 數(shù)據(jù)庫統(tǒng)計 163
8.3.1 系統(tǒng)統(tǒng)計 163
8.3.2 統(tǒng)計配置 166
8.4 PXF 168
8.4.1 安裝配置PXF 168
8.4.2 PXF profile 168
8.4.3 訪問HDFS文件 170
8.4.4 訪問Hive數(shù)據(jù) 174
8.4.5 訪問JSON數(shù)據(jù) 186
8.4.6 向HDFS中寫入數(shù)據(jù) 190
8.5 小結(jié) 194
第9章 過程語言 195
9.1 HAWQ內(nèi)建SQL語言 195
9.2 PL/pgSQL函數(shù) 197
9.3 給HAWQ內(nèi)部函數(shù)起別名 198
9.4 表函數(shù) 198
9.5 參數(shù)個數(shù)可變的函數(shù) 201
9.6 多態(tài)類型 202
9.7 UDF管理 205
9.8 UDF實例——遞歸樹形遍歷 207
9.9 小結(jié) 214
第10章 查詢優(yōu)化 215
10.1 HAWQ的查詢處理流程 215
10.2 GPORCA查詢優(yōu)化器 217
10.2.1 GPORCA的改進 218
10.2.2 啟用GPORCA 224
10.2.3 使用GPORCA需要考慮的問題 225
10.2.4 GPORCA的限制 227
10.3 性能優(yōu)化 228
10.4 查詢剖析 232
10.5 小結(jié) 238
第11章 高可用性 239
11.1 備份與恢復(fù) 239
11.1.1 備份方法 239
11.1.2 備份與恢復(fù)示例 242
11.2 高可用性 247
11.2.1 HAWQ高可用簡介 247
11.2.2 Master節(jié)點鏡像 248
11.2.3 HAWQ文件空間與HDFS高可用 251
11.2.4 HAWQ容錯服務(wù) 260
11.3 小結(jié) 262
第二部分 HAWQ實戰(zhàn)演練
第12章 建立數(shù)據(jù)倉庫示例模型 265
12.1 業(yè)務(wù)場景 265
12.2 數(shù)據(jù)倉庫架構(gòu) 267
12.3 實驗環(huán)境 268
12.4 HAWQ相關(guān)配置 269
12.5 創(chuàng)建示例數(shù)據(jù)庫 273
12.5.1 在hdp4上的MySQL中創(chuàng)建源庫對象并生成測試數(shù)據(jù) 273
12.5.2 創(chuàng)建目標庫對象 275
12.5.3 裝載日期維度數(shù)據(jù) 283
12.6 小結(jié) 284
第13章 初始ETL 285
13.1 用Sqoop初始數(shù)據(jù)抽取 285
13.1.1 覆蓋導(dǎo)入 286
13.1.2 增量導(dǎo)入 286
13.1.3 建立初始抽取腳本 287
13.2 向HAWQ初始裝載數(shù)據(jù) 288
13.2.1 數(shù)據(jù)源映射 288
13.2.2 確定SCD處理方法 288
13.2.3 實現(xiàn)代理鍵 289
13.2.4 建立初始裝載腳本 289
13.3 建立初始ETL腳本 291
13.4 小結(jié) 293
第14章 定期ETL 294
14.1 變化數(shù)據(jù)捕獲 294
14.2 創(chuàng)建維度表版本視圖 296
14.3 創(chuàng)建時間戳表 297
14.4 用Sqoop定期數(shù)據(jù)抽取 298
14.5 建立定期裝載HAWQ函數(shù) 298
14.6 建立定期ETL腳本 303
14.7 測試 303
14.7.1 準備測試數(shù)據(jù) 303
14.7.2 執(zhí)行定期ETL腳本 304
14.7.3 確認ETL過程正確執(zhí)行 305
14.8 動態(tài)分區(qū)滾動 307
14.9 準實時數(shù)據(jù)抽取 309
14.10 小結(jié) 317
第15章 自動調(diào)度執(zhí)行ETL作業(yè) 318
15.1 Oozie簡介 318
15.2 建立工作流前的準備 320
15.3 用Oozie建立定期ETL工作流 324
15.4 Falcon簡介 328
15.5 用Falcon process調(diào)度Oozie工作流 329
15.6 小結(jié) 332
第16章 維度表技術(shù) 333
16.1 增加列 333
16.2 維度子集 342
16.3 角色扮演維度 348
16.4 層次維度 354
16.4.1 固定深度的層次 355
16.4.2 多路徑層次 357
16.4.3 參差不齊的層次 359
16.5 退化維度 361
16.6 雜項維度 366
16.7 維度合并 374
16.8 分段維度 380
16.9 小結(jié) 386
第17章 事實表技術(shù) 387
17.1 周期快照 388
17.2 累積快照 394
17.3 無事實的事實表 404
17.4 遲到的事實 409
17.5 累積度量 416
17.6 小結(jié) 422
第18章 聯(lián)機分析處理 423
18.1 聯(lián)機分析處理簡介 423
18.1.1 概念 423
18.1.2 分類 424
18.1.3 性能 426
18.2 聯(lián)機分析處理實例 427
18.2.1 銷售訂單 427
18.2.2 行列轉(zhuǎn)置 433
18.3 交互查詢與圖形化顯示 440
18.3.1 Zeppelin簡介 440
18.3.2 使用Zeppelin執(zhí)行HAWQ查詢 441
18.4 小結(jié) 448
第三部分 HAWQ數(shù)據(jù)挖掘
第19章 整合HAWQ與MADlib 451
19.1 MADlib簡介 452
19.2 安裝與卸載MADlib 455
19.3 MADlib基礎(chǔ) 458
19.3.1 向量 458
19.3.2 矩陣 469
19.4 小結(jié) 484
第20章 奇異值分解 485
20.1 奇異值分解簡介 485
20.2 MADlib奇異值分解函數(shù) 486
20.3 奇異值分解實現(xiàn)推薦算法 489
20.4 小結(jié) 501
第21章 主成分分析 502
21.1 主成分分析簡介 502
21.2 MADlib的PCA相關(guān)函數(shù) 504
21.3 PCA應(yīng)用示例 509
21.4 小結(jié) 513
第22章 關(guān)聯(lián)規(guī)則方法 514
22.1 關(guān)聯(lián)規(guī)則簡介 514
22.2 Apriori算法 517
22.2.1 Apriori算法基本思想 517
22.2.2 Apriori算法步驟 518
22.3 MADlib的Apriori算法函數(shù) 518
22.4 Apriori應(yīng)用示例 519
22.5 小結(jié) 524
第23章 聚類方法 525
23.1 聚類方法簡介 525
23.2 k-means方法 526
23.2.1 基本思想 527
23.2.2 原理與步驟 527
23.2.3 k-means算法 527
23.3 MADlib的k-means相關(guān)函數(shù) 529
23.4 k-means應(yīng)用示例 532
23.5 小結(jié) 537
第24章 回歸方法 538
24.1 回歸方法簡介 538
24.2 Logistic回歸 539
24.3 MADlib的Logistic回歸相關(guān)函數(shù) 539
24.4 Logistic回歸示例 542
24.5 小結(jié) 546
第25章 分類方法 547
25.1 分類方法簡介 547
25.2 決策樹 549
25.2.1 決策樹的基本概念 549
25.2.2 決策樹的構(gòu)建步驟 549
25.3 MADlib的決策樹相關(guān)函數(shù) 551
25.4 決策樹示例 555
25.5 小結(jié) 561
第26章 圖算法 562
26.1 圖算法簡介 562
26.2 單源*短路徑 565
26.3 MADlib的單源*短路徑相關(guān)函數(shù) 566
26.4 單源*短路徑示例 567
26.5 小結(jié) 569
第27章 模型驗證 570
27.1 交叉驗證簡介 570
27.2 MADlib的交叉驗證相關(guān)函數(shù) 573
27.3 交叉驗證示例 575
27.4 小結(jié) 578