注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件工程及軟件方法學(xué)精通Hadoop 3

精通Hadoop 3

精通Hadoop 3

定 價(jià):¥149.00

作 者: [印] 尚沙勒·辛格 等 著,張華臻 譯
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302596875 出版時(shí)間: 2022-01-01 包裝: 平裝
開本: 16開 頁數(shù): 430 字?jǐn)?shù):  

內(nèi)容簡介

  《精通Hadoop3》詳細(xì)闡述了與Hadoop 3相關(guān)的基礎(chǔ)知識(shí),主要包括Hadoop 3簡介、深入理解Hadoop分布式文件系統(tǒng)、YARN資源管理器、MapReduce內(nèi)部機(jī)制、Hadoop中的SQL、實(shí)時(shí)處理引擎、Hadoop生態(tài)圈組件、定義Hadoop中的應(yīng)用程序、Hadoop中的實(shí)時(shí)流處理、Hadoop中的機(jī)器學(xué)習(xí)、云端中的Hadoop、Hadoop集群分析、Hadoop中的角色及其執(zhí)行內(nèi)容、網(wǎng)絡(luò)和數(shù)據(jù)安全、監(jiān)測Hadoop等內(nèi)容。此外,本書還提供了相應(yīng)的示例、代碼,以幫助讀者進(jìn)一步理解相關(guān)方案的實(shí)現(xiàn)過程。 本書適合作為高等院校計(jì)算機(jī)及相關(guān)專業(yè)的教材和教學(xué)參考書,也可作為相關(guān)開發(fā)人員的自學(xué)用書和參考手冊(cè)。

作者簡介

暫缺《精通Hadoop 3》作者簡介

圖書目錄

第1部分 Hadoop 3簡介
第1章 Hadoop 3簡介 3
1.1 Hadoop起源和時(shí)間軸 3
1.1.1 Hadoop的起源 4
1.1.2 時(shí)間軸 5
1.2 Hadoop 3及其特性 7
1.3 Hadoop邏輯視圖 8
1.4 Hadoop發(fā)行版本 10
1.4.1 本地版本 11
1.4.2 云版本 11
1.5 回顧 12
1.6 本章小結(jié) 12
第2章 深入理解Hadoop分布式文件系統(tǒng) 13
2.1 技術(shù)需求 13
2.2 定義HDFS 13
2.3 深入研究HDFS體系結(jié)構(gòu) 14
2.3.1 HDFS邏輯結(jié)構(gòu) 15
2.3.2 數(shù)據(jù)分組的概念 18
2.3.3 HDFS通信體系結(jié)構(gòu) 19
2.4 NameNode內(nèi)部機(jī)制 21
2.5 數(shù)據(jù)本地性和機(jī)架感知 22
2.6 DataNode內(nèi)部機(jī)制 24
2.7 Quorum Journal Manager(QJM) 25
2.8 Hadoop 3.x中的高可用性 26
2.9 數(shù)據(jù)管理 27
2.9.1 元數(shù)據(jù)管理 28
2.9.2 使用二級(jí)NameNode的檢查點(diǎn) 31
2.9.3 數(shù)據(jù)集成 32
2.9.4 HDFS快照 32
2.9.5 數(shù)據(jù)平衡機(jī)制 33
2.9.6 均衡器的最佳應(yīng)用方案 35
2.10 HDFS寫入、讀取操作 36
2.10.1 寫入工作流 36
2.10.2 讀取工作流 38
2.10.3 短路讀取 40
2.11 管理Hadoop 3.x中的磁盤傾斜數(shù)據(jù) 41
2.12 HDFS中的延遲持久化寫入操作 42
2.13 Hadoop 3.x中的糾刪碼 43
2.13.1 糾刪碼的優(yōu)點(diǎn) 45
2.13.2 糾刪碼的缺點(diǎn) 45
2.14 HDFS公共接口 45
2.14.1 HDFS讀取操作 46
2.14.2 HDFS寫入操作 48
2.14.3 HDFSFileSystemWrite.java文件 49
2.14.4 HDFS刪除操作 50
2.15 HDFS命令參考 50
2.15.1 文件系統(tǒng)命令 50
2.15.2 分布式復(fù)制 52
2.15.3 管理命令 53
2.16 回顧 54
2.17 本章小結(jié) 54
第3章 YARN資源管理器 55
3.1 YARN體系結(jié)構(gòu) 55
3.1.1 資源管理器組件 58
3.1.2 節(jié)點(diǎn)管理器核心 60
3.2 YARN作業(yè)調(diào)度機(jī)制簡介 60
3.3 FIFO調(diào)度器 61
3.4 計(jì)算能力調(diào)度器 61
3.5 公平調(diào)度器 63
3.5.1 調(diào)度隊(duì)列 63
3.5.2 配置公平調(diào)度器 64
3.6 資源管理器的高可用性 65
3.6.1 資源管理器高可用性的體系結(jié)構(gòu) 66
3.6.2 配置資源管理器高可用性 67
3.7 節(jié)點(diǎn)標(biāo)記 69
3.8 Hadoop 3.x中的YARN時(shí)間軸服務(wù)器 75
3.9 Hadoop 3.x中的機(jī)會(huì)型容器 77
3.10 YARN中的Docker容器 79
3.10.1 配置Docker容器 80
3.10.2 運(yùn)行Docker鏡像 80
3.10.3 運(yùn)行容器 80
3.11 YARN REST API 81
3.11.1 資源管理API 81
3.11.2 節(jié)點(diǎn)管理器REST API 85
3.12 YARN命令參考 86
3.12.1 用戶命令 87
3.12.2 應(yīng)用程序命令 87
3.12.3 日志命令 88
3.12.4 管理員命令 89
3.13 本章小結(jié) 90
第4章 MapReduce內(nèi)部機(jī)制 91
4.1 技術(shù)需求 91
4.2 深入了解Hadoop MapReduce框架 91
4.3 YARN和MapReduce 95
4.4 Hadoop框架中的MapReduce工作流 97
4.5 常見的MapReduce模式 100
4.5.1 求和模式 100
4.5.2 過濾模式 112
4.5.3 連接模式 116
4.5.4 復(fù)合連接 123
4.6 MapReduce用例 126
4.6.1 MovieRatingMapper 127
4.6.2 MovieRatingReducer 128
4.6.3 MovieRatingDriver 128
4.7 優(yōu)化MapReduce 130
4.7.1 硬件配置 130
4.7.2 操作系統(tǒng)調(diào)試 131
4.7.3 優(yōu)化技術(shù) 132
4.7.4 運(yùn)行期配置 133
4.7.5 文件系統(tǒng)優(yōu)化 133
4.8 本章小結(jié) 134
第2部分 Hadoop生態(tài)圈
第5章 Hadoop中的SQL 137
5.1 技術(shù)需求 137
5.2 Presto 137
5.2.1 Presto體系結(jié)構(gòu) 138
5.2.2 安裝Presto并執(zhí)行基本的查詢操作 139
5.2.3 函數(shù) 142
5.2.4 Presto連接器 144
5.3 Hive 147
5.3.1 Apache Hive體系結(jié)構(gòu) 148
5.3.2 安裝和運(yùn)行Hive 149
5.3.3 Hive查詢 150
5.3.4 選擇文件格式 154
5.3.5 HCatalog簡介 156
5.3.6 HiveServer2簡介 157
5.3.7 Hive UDF 157
5.3.8 理解Hive中的ACID 161
5.3.9 分區(qū)機(jī)制和分桶機(jī)制 166
5.3.10 最佳實(shí)踐 167
5.4 Impala 168
5.4.1 Impala體系結(jié)構(gòu) 168
5.4.2 了解Impala接口和查詢 170
5.4.3 Impala實(shí)戰(zhàn) 171
5.4.4 加載CSV文件中的數(shù)據(jù) 173
5.4.5 最佳實(shí)踐方案 175
5.5 本章小結(jié) 176
第6章 實(shí)時(shí)處理引擎 177
6.1 技術(shù)需求 177
6.2 Spark 177
6.2.1 Apache Spark內(nèi)部機(jī)制 178
6.2.2 彈性分布式數(shù)據(jù)集 180
6.2.3 安裝并運(yùn)行第一個(gè)Spark作業(yè) 182
6.2.4 累加器和廣播變量 188
6.2.5 理解數(shù)據(jù)框和數(shù)據(jù)集 189
6.2.6 Spark集群管理器 192
6.2.7 最佳實(shí)踐 193
6.3 Apache Flink 195
6.3.1 Flink體系結(jié)構(gòu) 195
6.3.2 Apache Flink生態(tài)圈組件 196
6.3.3 數(shù)據(jù)流和數(shù)據(jù)集API 198
6.3.4 表API 201
6.3.5 最佳實(shí)踐 203
6.4 Storm/Heron 204
6.4.1 Storm/Heron體系結(jié)構(gòu) 205
6.4.2 理解Storm Trident 210
6.4.3 Storm集成 211
6.4.4 最佳實(shí)踐 212
6.5 本章小結(jié) 212
第7章 Hadoop生態(tài)圈組件 213
7.1 技術(shù)需求 213
7.2 Pig 213
7.2.1 Apache Pig體系結(jié)構(gòu) 214
7.2.2 安裝并運(yùn)行Pig 216
7.2.3 Pig Latin和Grunt 217
7.2.4 編寫Pig中的UDF 218
7.2.5 Pig和Hive 221
7.2.6 最佳實(shí)踐 222
7.3 HBase 222
7.3.1 HBase體系結(jié)構(gòu)及其概念 223
7.3.2 CAP理論 225
7.3.3 HBase操作機(jī)器示例 227
7.3.4 安裝 230
7.3.5 最佳實(shí)踐 232
7.4 Kafka 233
7.4.1 Apache Kafka體系結(jié)構(gòu) 234
7.4.2 安裝和運(yùn)行Apache Kafka 236
7.4.3 生產(chǎn)者和使用者的內(nèi)部機(jī)制 238
7.4.4 編寫生產(chǎn)者和使用者應(yīng)用程序 241
7.4.5 Kafka的ETL連接 244
7.4.6 最佳實(shí)踐 248
7.5 Flume 249
7.5.1 Apache Flume體系結(jié)構(gòu) 249
7.5.2 深入理解源、通道和接收器 251
7.5.3 Flume攔截器 265
7.5.4 用例—Twitter數(shù)據(jù) 271
7.5.5 最佳實(shí)踐 273
7.6 本章小結(jié) 274
第3部分 Hadoop的實(shí)際應(yīng)用
第8章 定義Hadoop中的應(yīng)用程序 277
8.1 技術(shù)需求 277
8.2 文件格式 277
8.2.1 了解文件格式 278
8.2.2 文本 279
8.2.3 序列文件 279
8.2.4 Avro 282
8.2.5 優(yōu)化的行和列(ORC) 284
8.2.6 Parquet 285
8.3 數(shù)據(jù)壓縮 285
8.3.1 Hadoop中的數(shù)據(jù)壓縮類型 286
8.3.2 壓縮格式 289
8.4 序列化 290
8.5 數(shù)據(jù)攝取 290
8.5.1 批量攝取 291
8.5.2 宏批處理攝取 292
8.5.3 實(shí)時(shí)攝取 293
8.6 數(shù)據(jù)處理 294
8.6.1 批處理 294
8.6.2 微批處理 296
8.6.3 實(shí)時(shí)處理 297
8.7 常見的批處理模式 298
8.7.1 緩時(shí)變維度 298
8.7.2 重復(fù)記錄和小型文件 300
8.7.3 實(shí)時(shí)查找 301
8.8 針對(duì)編排的Airflow 302
8.9 數(shù)據(jù)治理 303
8.9.1 數(shù)據(jù)治理的主要內(nèi)容 303
8.9.2 元數(shù)據(jù)管理 304
8.9.3 數(shù)據(jù)生命周期管理 305
8.9.4 數(shù)據(jù)分類 306
8.10 本章小結(jié) 307
第9章 Hadoop中的實(shí)時(shí)流處理 309
9.1 技術(shù)需求 309
9.2 流式數(shù)據(jù)集 309
9.3 流數(shù)據(jù)攝取 310
9.3.1 Flume中基于事件的數(shù)據(jù)攝取 310
9.3.2 Kafka 311
9.4 常見的流數(shù)據(jù)處理模式 313
9.5 流式設(shè)計(jì) 314
9.5.1 延遲 315
9.5.2 數(shù)據(jù)可用性、一致性和安全性 315
9.5.3 無界數(shù)據(jù)源 316
9.5.4 數(shù)據(jù)查找 316
9.5.5 數(shù)據(jù)格式 317
9.5.6 序列化數(shù)據(jù) 317
9.5.7 并行處理機(jī)制 317
9.5.8 無序事件 318
9.5.9 消息傳遞語義 318
9.6 微批處理用例 319
9.7 實(shí)時(shí)處理案例 328
9.7.1 主代碼 333
9.7.2 執(zhí)行代碼 344
9.8 本章小結(jié) 345
第10章 Hadoop中的機(jī)器學(xué)習(xí) 347
10.1 技術(shù)需求 347
10.2 機(jī)器學(xué)習(xí)步驟 347
10.3 常見的機(jī)器學(xué)習(xí)挑戰(zhàn) 348
10.4 Spark機(jī)器學(xué)習(xí) 349
10.4.1 轉(zhuǎn)換器函數(shù) 350
10.4.2 評(píng)估器 351
10.4.3 Spark ML管線 351
10.5 Hadoop和R 352
10.6 Mahout 353
10.7 Spark中的機(jī)器學(xué)習(xí)案例 354
10.8 本章小結(jié) 358
第11章 云端中的Hadoop 359
11.1 技術(shù)需求 359
11.2 云端Hadoop的邏輯視圖 359
11.3 網(wǎng)絡(luò) 361
11.3.1 區(qū)域和可用區(qū) 361
11.3.2 VPC和子網(wǎng) 362
11.3.3 安全組和防火墻規(guī)則 363
11.3.4 AWS操作示例 364
11.4 管理資源 370
11.5 數(shù)據(jù)管線 374
11.5.1 Amazon數(shù)據(jù)管線 375
11.5.2 Airflow 375
11.5.3 Airflow組件 376
11.5.4 數(shù)據(jù)管線的DAG示例 376
11.6 高可用性(HA) 379
11.6.1 服務(wù)器故障 379
11.6.2 云存儲(chǔ)高可用性 381
11.7 本章小結(jié) 382
第12章 Hadoop集群分析 383
12.1 基準(zhǔn)測試和分析簡介 383
12.2 HDFS 385
12.3 NameNode 386
12.3.1 NNBench 386
12.3.2 NNThroughputBenchmark 387
12.3.3 合成加載生成器 389
12.4 YARN 392
12.5 Hive 393
12.5.1 TPC-DS 393
12.5.2 TPC-H 394
12.6 混合工作負(fù)載 395
12.6.1 Rumen 395
12.6.2 Gridmix 396
12.7 本章小結(jié) 397
第4部分 Hadoop的安全機(jī)制
第13章 Hadoop中的角色及其執(zhí)行內(nèi)容 401
13.1 Hadoop安全問題的各種因素 401
13.2 系統(tǒng)安全 402
13.3 Kerberos驗(yàn)證機(jī)制 403
13.3.1 Kerberos的優(yōu)點(diǎn) 404
13.3.2 Kerberos驗(yàn)證流 404
13.4 用戶權(quán)限 406
13.4.1 Ranger 407
13.4.2 Sentry 408
13.5 Hadoop 3.0中的安全特征列表 409
13.6 本章小結(jié) 411
第14章 網(wǎng)絡(luò)和數(shù)據(jù)安全 413
14.1 Hadoop網(wǎng)絡(luò)安全 413
14.1.1 隔離不同類型的網(wǎng)絡(luò) 413
14.1.2 網(wǎng)絡(luò)防火墻 415
14.1.3 Hadoop服務(wù)的網(wǎng)絡(luò)邊界安全工具 415
14.2 加密技術(shù) 417
14.2.1 傳輸數(shù)據(jù)加密 417
14.2.2 靜態(tài)數(shù)據(jù)加密 418
14.3 數(shù)據(jù)屏蔽機(jī)制 419
14.4 過濾機(jī)制 420
14.4.1 行級(jí)別過濾機(jī)制 420
14.4.2 列級(jí)別過濾機(jī)制 421
14.5 本章小結(jié) 421
第15章 監(jiān)測Hadoop 423
15.1 通用監(jiān)測機(jī)制 423
15.1.1 HDFS指標(biāo) 423
15.1.2 YARN指標(biāo) 425
15.1.3 ZooKeeper指標(biāo) 426
15.1.4 Apache Ambari 426
15.2 安全監(jiān)測機(jī)制 427
15.2.1 安全信息和事件管理 427
15.2.2 SIEM的工作方式 428
15.2.3 入侵檢測系統(tǒng) 429
15.2.4 入侵預(yù)防系統(tǒng) 430
15.3 本章小結(jié) 430

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)