注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)家庭與辦公軟件Hadoop虛擬化

Hadoop虛擬化

Hadoop虛擬化

定 價:¥89.00

作 者: [美] 喬治·特魯希略(George Trujillo) 著,陳鵬,肖明興 譯
出版社: 人民郵電出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787115497543 出版時間: 2019-02-01 包裝: 平裝
開本: 16開 頁數(shù): 358 字數(shù):  

內(nèi)容簡介

  本書旨在幫助讀者了解和掌握不同虛擬化Hadoop選擇的優(yōu)缺點、虛擬化Hadoop的配置及其注意事項。本書共分15章,主要內(nèi)容包括Hadoop平臺在企業(yè)轉(zhuǎn)型中扮演的重要角色、Hadoop基礎(chǔ)概念、YARN與HDFS、現(xiàn)代數(shù)據(jù)平臺、數(shù)據(jù)采集、Hadoop SQL引擎、Hadoop中的多租戶、虛擬化基礎(chǔ)、虛擬化Hadoop實踐、虛擬化Hadoop、虛擬化Hadoop主服務(wù)器、虛擬化Hadoop工作節(jié)點、私有云中的Hadoop即服務(wù)、Hadoop安裝以及Hadoop Linux配置。

作者簡介

  George J. Trujillo, Jr. 是一名經(jīng)驗豐富且具有高溝通能力的企業(yè)高管。他是變革管理專家,具備強大的領(lǐng)導(dǎo)力、批判性思維且善于用數(shù)據(jù)驅(qū)動決策。George在大數(shù)據(jù)和云解決方案領(lǐng)域是國際公認的數(shù)據(jù)架構(gòu)師和講師。他涉足的領(lǐng)域包括大數(shù)據(jù)架構(gòu)、Hadoop(Hortonworks、Cloudera)、數(shù)據(jù)治理、數(shù)據(jù)庫模式設(shè)計、元數(shù)據(jù)管理、安全、NoSQL和商業(yè)智能(BI)。他擁有眾多的行業(yè)認證,其中包括Oracle雙ACE認證、Sun 微系統(tǒng)應(yīng)用中間平臺Sun大使、VMware認可vExpert、VMware認證講師、MySQL蘇格拉底獎獲得者和MySQL認證數(shù)據(jù)庫管理員(DBA)。同時,他在用戶社區(qū)中的領(lǐng)導(dǎo)地位包括Independent Oracle Users Group(IOUG)董事會成員、IOUG Cloud SIG主席、RMOUG Big Data SIG主席、OracleFusion Council和Oracle BetaOracle Beta Leadership Council委員,并被IOUG推選加入“Oracles of Oracle”圈子,同時也是IOUG’s Master Series演講大師。George的工作職位包含金融服務(wù)行業(yè)大數(shù)據(jù)架構(gòu)副總裁、Hortonworks大數(shù)據(jù)專家、VMware Center of Excellence以及專業(yè)服務(wù)和培訓(xùn)組織的CEO。Charles Kim是Viscosity North America公司總裁,該公司是一家專門從事大數(shù)據(jù)、Oracle Exadata/RAC和虛擬化的利基咨詢機構(gòu)。Charles是Hadoop大數(shù)據(jù)、Linux基礎(chǔ)架構(gòu)、云計算、虛擬化、工程化系統(tǒng)和Oracle集群技術(shù)方面的架構(gòu)師。同時,Charles也是Oracle出版社、培生出版集團和Apress出版社Oracle、Hadoop和Linux技術(shù)領(lǐng)域的作者。他有Oracle、VMware、Red Hat Linux和Microsoft認證,在關(guān)鍵任務(wù)和關(guān)鍵業(yè)務(wù)系統(tǒng)上有超過23年的IT從業(yè)經(jīng)歷。

圖書目錄

目錄
第 1章 了解大數(shù)據(jù)的世界 1
1.1 數(shù)據(jù)革命 1
1.2 傳統(tǒng)數(shù)據(jù)系統(tǒng) 3
1.2.1 半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù) 4
1.2.2 因果關(guān)系 6
1.2.3 數(shù)據(jù)挑戰(zhàn) 6
1.3 現(xiàn)代數(shù)據(jù)架構(gòu) 14
1.4 組織轉(zhuǎn)型 15
1.5 行業(yè)轉(zhuǎn)型 17
1.6 小結(jié) 17
第 2章 Hadoop基礎(chǔ)概念 18
2.1 Hadoop中的數(shù)據(jù)類型 18
2.2 使用案例 19
2.3 什么是Hadoop 20
2.4 Hadoop發(fā)行版本 25
2.5 Hadoop框架 25
2.6 NoSQL數(shù)據(jù)庫 29
2.7 Hadoop集群 33
2.8 Hadoop軟件進程 36
2.9 Hadoop生態(tài)中的角色 45
2.10 小結(jié) 48
第3章 YARN和HDFS 49
3.1 Hadoop分布式集群 49
3.2 Hadoop目錄結(jié)構(gòu) 53
3.3 Hadoop分布式文件系統(tǒng) 54
3.3.1 YARN日志 56
3.3.2 NameNode 57
3.3.3 DataNode 58
3.3.4 塊分布 60
3.3.5 NameNode配置和元數(shù)據(jù)管理 62
3.4 機架感知 67
3.4.1 塊管理 67
3.4.2 均衡器 68
3.4.3 群集中的數(shù)據(jù)完整性維護 68
3.4.4 配額和垃圾桶 76
3.5 YARN和YARN處理模型 76
3.5.1 在YARN上運行應(yīng)用 83
3.5.2 資源調(diào)度器 88
3.5.3 基準(zhǔn)測試 92
3.5.4 TeraSort基準(zhǔn)測試組件 94
3.6 小結(jié) 96
第4章 現(xiàn)代數(shù)據(jù)平臺 98
4.1 設(shè)計一個Hadoop集群 98
4.2 小結(jié) 115
第5章 數(shù)據(jù)提取 117
5.1 提取、加載和轉(zhuǎn)化 117
5.1.1 Sqoop:數(shù)據(jù)移動和SQL源 118
5.1.2 Flume:流數(shù)據(jù) 123
5.1.3 Oozie:計劃和工作流 140
5.1.4 Falcon:數(shù)據(jù)生命周期管理 145
5.1.5 Kafka:實時數(shù)據(jù)流 148
5.2 小結(jié) 156
第6章 Hadoop SQL引擎 157
6.1 SQL的起源 157
6.2 Hadoop中的SQL 158
6.3 Hadoop SQL引擎 159
6.4 感受Hive和Pig的樂趣 166
6.4.1 Hive 166
6.4.2 HCatalog 180
6.5 小結(jié) 187
第7章 Hadoop多租戶 188
7.1 保障訪問 189
7.1.1 認證 189
7.1.2 審計 194
7.1.3 授權(quán) 194
7.1.4 數(shù)據(jù)保護 196
7.1.5 數(shù)據(jù)隔離 203
7.1.6 進程隔離 211
7.2 小結(jié) 214
第8章 虛擬化基礎(chǔ) 215
8.1 Hadoop虛擬化的原因 216
8.2 小結(jié) 231
參考文獻 231
第9章 Hadoop虛擬化最佳實踐 232
9.1 有目的、有調(diào)理地進行Hadoop虛擬化 232
9.1.1 目的始于明確的目標(biāo) 234
9.1.2 Hadoop不同層次虛擬化 234
9.1.3 行業(yè)最佳實踐 236
9.2 小結(jié) 249
第 10章 Hadoop虛擬化 250
10.1 如何管理Hadoop生態(tài) 251
10.1.1 構(gòu)建敏捷和彈性的企業(yè)Hadoop平臺 252
10.1.2 澄清條款 252
10.1.3 從裸機到虛擬化的歷程 253
10.2 為何考慮Hadoop虛擬化 254
10.2.1 Hadoop虛擬化的好處 255
10.2.2 虛擬化可以跟本地運行一樣快甚至更快 256
10.2.3 協(xié)調(diào)和交叉目的專業(yè)化是未來 258
10.2.4 障礙可以是在企業(yè)之前 259
10.2.5 虛擬化不是全部或不是一個選項 259
10.2.6 快速配置并提高開發(fā)和測試環(huán)境質(zhì)量 259
10.2.7 使用虛擬化提升高可用性 261
10.2.8 使用虛擬化處理Hadoop工作負載 261
10.2.9 基于云的Hadoop 262
10.2.10 大數(shù)據(jù)擴展 262
10.2.11 虛擬化的途徑 263
10.2.12 軟件定義數(shù)據(jù)中心 264
10.2.13 虛擬化網(wǎng)絡(luò) 265
10.2.14 vRealize Suite 266
10.3 小結(jié) 267
參考文獻 268
第 11章 Hadoop虛擬化主服務(wù)器 269
11.1 Hadoop虛擬化集群服務(wù)器 269
11.1.1 Hadoop周邊環(huán)境虛擬化 270
11.1.2 Hadoop主服務(wù)器虛擬化 271
11.1.3 無SAN虛擬化 274
11.2 小結(jié) 275
第 12章 虛擬化工作節(jié)點 276
12.1 Hadoop中的工作節(jié)點 276
12.2 Hadoop集群的部署模式 277
12.2.1 組合模式 278
12.2.2 分離模式 281
12.2.3 數(shù)據(jù)-計算分離的網(wǎng)絡(luò)影響 283
12.2.4 數(shù)據(jù)-計算分離模式下的共享存儲方式 284
12.2.5 用于應(yīng)用臨時數(shù)據(jù)的本地磁盤 286
12.2.6 使用網(wǎng)絡(luò)附加存儲(NAS)的共享存儲架構(gòu)模型 286
12.2.7 部署模式總結(jié) 288
12.3 Hadoop虛擬化工作節(jié)點的最佳實踐 289
12.4 Hadoop虛擬化擴展 293
12.5 小結(jié) 296
參考文獻 296
資源 297
第 13章 私有云中部署Hadoop即服務(wù) 298
13.1 云概念 298
13.1.1 Hadoop的受益者 299
13.1.2 解決方案架構(gòu)概述 303
13.2 小結(jié) 305
參考文獻 305
第 14章 掌握Hadoop的安裝 306
14.1 為正確的場景使用正確的解決方案 306
14.2 配置倉庫 308
14.2.1 安裝HDP2.2 310
14.2.2 環(huán)境準(zhǔn)備 310
14.3 設(shè)置Hadoop配置 320
14.4 啟動HDFS和YARN 325
14.4.1 啟動YARN 327
14.4.2 驗證MapReduce功能 329
14.5 安裝和配置Hive 331
14.6 安裝和配置MySQL數(shù)據(jù)庫 331
14.7 安裝和配置Hive和HCatalog 331
14.8 小結(jié) 334
第 15章 為Hadoop配置Linux 336
15.1 支持的Linux平臺 337
15.2 不同部署模式 337
15.3 Linux黃金模板 337
15.3.1 構(gòu)建企業(yè)級Linux Hadoop平臺 338
15.3.2 Linux版本選擇 341
15.4 最優(yōu)Linux內(nèi)核參數(shù)和系統(tǒng)設(shè)置 341
15.4.1 epoll 341
15.4.2 禁用交換空間 342
15.4.3 安裝過程中的安全性禁用 342
15.4.4 IO調(diào)度器調(diào)優(yōu) 344
15.4.5 檢查透明大內(nèi)存頁面配置 344
15.4.6 Limits.conf 344
15.4.7 RDM分區(qū)對齊 345
15.4.8 文件系統(tǒng)注意事項 345
15.4.9 XFS惰性計算參數(shù) 347
15.4.10 Mount選項 347
15.4.11 I/O調(diào)度器 348
15.4.12 磁盤讀寫選項 350
15.4.13 存儲基準(zhǔn)測試 350
15.4.14 Java版本 351
15.4.15 設(shè)置NTP 351
15.4.16 啟用巨型幀 352
15.4.17 其他網(wǎng)絡(luò)方面的考慮 353
15.5 小結(jié) 355
附錄 Hadoop集群創(chuàng)建:先決條件檢查表 356

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號