注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計其他編程語言/工具Hadoop權(quán)威指南修訂升級版(第2版)

Hadoop權(quán)威指南修訂升級版(第2版)

Hadoop權(quán)威指南修訂升級版(第2版)

定 價:¥89.00

作 者: (美)懷特(White, T.) 著,周敏奇,錢衛(wèi)寧,金澈清,王曉玲 譯.
出版社: 清華大學出版社
叢編項:
標 簽: 程序設(shè)計

ISBN: 9787302257585 出版時間: 2011-06-01 包裝: 平裝
開本: 16開 頁數(shù): 600 字數(shù):  

內(nèi)容簡介

  本書從Hadoop的緣起開始,由淺入深,結(jié)合理論和實踐,全方位地介紹Hadoop這一高性能處理海量數(shù)據(jù)集的理想工具。全書共16章,3個附錄,涉及的主題包括:Haddoop簡介;MapReduce簡介;Hadoop分布式文件系統(tǒng);Hadoop的I/O、MapReduce應(yīng)用程序開發(fā);MapReduce的工作機制;MapReduce的類型和格式;MapReduce的特性;如何構(gòu)建Hadoop集群,如何管理Hadoop;Pig簡介;Hbase簡介;Hive簡介;ZooKeeper簡介;開源工具Sqoop,最后還提供了豐富的案例分析。本書是Hadoop權(quán)威參考,程序員可從中探索如何分析海量數(shù)據(jù)集,管理員可以從中了解如何安裝與運行Hadoop集群。

作者簡介

暫缺《Hadoop權(quán)威指南修訂升級版(第2版)》作者簡介

圖書目錄

第1章  初識Hadoop 1
數(shù)據(jù)!數(shù)據(jù)! 1
數(shù)據(jù)存儲與分析 3
與其他系統(tǒng)相比 4
關(guān)系型數(shù)據(jù)庫管理系統(tǒng) 4
網(wǎng)格計算 6
志愿計算 8
1.3.4  Hadoop 發(fā)展簡史 9
Apache Hadoop和Hadoop生態(tài)圈 12
第2章  關(guān)于MapReduce 15
一個氣象數(shù)據(jù)集 15
數(shù)據(jù)的格式 15
使用Unix工具進行數(shù)據(jù)分析 17
使用Hadoop分析數(shù)據(jù) 18
map階段和reduce階段 18
橫向擴展 27
合并函數(shù) 30
運行一個分布式的MapReduce作業(yè) 33
Hadoop的Streaming 33
Ruby版本 33
Python版本 36
Hadoop Pipes 37
編譯運行 38
第3章  Hadoop分布式文件系統(tǒng) 41
HDFS的設(shè)計 41
HDFS的概念 43
數(shù)據(jù)塊 43
namenode和datanode 44
命令行接口 45
基本文件系統(tǒng)操作 46
Hadoop文件系統(tǒng) 47
接口 49
Java接口 51
從Hadoop URL中讀取數(shù)據(jù) 51
通過FileSystem API讀取數(shù)據(jù) 52
寫入數(shù)據(jù) 55
目錄 57
查詢文件系統(tǒng) 57
刪除數(shù)據(jù) 62
數(shù)據(jù)流 62
文件讀取剖析 62
文件寫入剖析 65
一致模型 68
通過 distcp并行拷貝 70
保持 HDFS 集群的均衡 71
Hadoop的歸檔文件 71
使用Hadoop歸檔文件 72
不足 73
第4章  Hadoop I/O 75
數(shù)據(jù)完整性 75
HDFS的數(shù)據(jù)完整性 75
LocalFileSystem 76
ChecksumFileSystem 77
壓縮 77
codec 78
壓縮和輸入切分 83
在MapReduce中使用壓縮 84
序列化 86
Writable接口 87
Writable類 89
實現(xiàn)定制的Writable類型 96
序列化框架 101
Avro 103
依據(jù)文件的數(shù)據(jù)結(jié)構(gòu) 116
寫入SequenceFile 117
MapFile 123
第5章  MapReduce應(yīng)用開發(fā) 129
配置API 130
合并多個源文件 131
可變的擴展 132
配置開發(fā)環(huán)境 132
配置管理 132
輔助類GenericOptionsParser,Tool和ToolRunner 135
編寫單元測試 138
mapper 138
reducer 140
本地運行測試數(shù)據(jù) 141
在本地作業(yè)運行器上運行作業(yè) 141
測試驅(qū)動程序 145
在集群上運行 146
打包 146
啟動作業(yè) 146
MapReduce的Web界面 148
獲取結(jié)果 151
作業(yè)調(diào)試 153
使用遠程調(diào)試器 158
作業(yè)調(diào)優(yōu) 160
分析任務(wù) 160
MapReduce的工作流 163
將問題分解成MapReduce作業(yè) 163
運行獨立的作業(yè) 165
第6章  MapReduce的工作機制 167
剖析MapReduce作業(yè)運行機制 167
作業(yè)的提交 167
作業(yè)的初始化 169
任務(wù)的分配 169
任務(wù)的執(zhí)行 170
進度和狀態(tài)的更新 170
作業(yè)的完成 172
失敗 173
任務(wù)失敗 173
tasktracker失敗 175
jobtracker失敗 175
作業(yè)的調(diào)度 175
Fair Scheduler 176
Capacity Scheduler 177
shuffle和排序 177
map端 177
reduce端 179
配置的調(diào)優(yōu) 180
任務(wù)的執(zhí)行 183
推測式執(zhí)行 183
重用JVM 184
跳過壞記錄 185
任務(wù)執(zhí)行環(huán)境 186
第7章  MapReduce的類型與格式 189
MapReduce的類型 189
默認的MapReduce作業(yè) 192
輸入格式 198
輸入分片與記錄 198
文本輸入 209
二進制輸入 213
多種輸入 214
數(shù)據(jù)庫輸入(和輸出) 215
輸出格式 215
文本輸出 216
二進制輸出 216
多個輸出 217
延遲輸出 224
數(shù)據(jù)庫輸出 224
第8章  MapReduce的特性 225
計數(shù)器 225
內(nèi)置計數(shù)器 225
用戶定義的Java計數(shù)器 227
用戶定義的Streaming計數(shù)器 232
排序 232
準備 232
部分排序 233
總排序 237
二次排序 241
聯(lián)接 247
map端聯(lián)接 247
reduce端聯(lián)接 249
邊數(shù)據(jù)分布 252
利用JobConf來配置作業(yè) 252
分布式緩存 253
MapReduce庫類 257
第9章  構(gòu)建Hadoop集群 259
集群規(guī)范 259
網(wǎng)絡(luò)拓撲 261
集群的構(gòu)建和安裝 263
安裝Java 264
創(chuàng)建Hadoop用戶 264
安裝Hadoop 264
測試安裝 265
SSH配置 265
Hadoop配置 266
配置管理 267
環(huán)境設(shè)置 269
Hadoop守護進程的關(guān)鍵屬性 273
Hadoop守護進程的地址和端口 278
Hadoop的其他屬性 279
創(chuàng)建用戶帳號 280
安全性 281
Kerberos和Hadoop 282
委托令牌 284
其他安全性改進 285
利用基準測試程序測試Hadoop集群 286
Hadoop基準測試程序 287
用戶的作業(yè) 289
云上的Hadoop 289
Amazon EC2上的Hadoop 290
第10章  管理Hadoop 293
HDFS 293
永久性數(shù)據(jù)結(jié)構(gòu) 293
安全模式 298
日志審計 300
工具 300
監(jiān)控 305
日志 305
度量 306
Java管理擴展(JMX) 309
維護 312
日常管理過程 312
委任節(jié)點和解除節(jié)點 313
升級 316
第11章  Pig簡介 321
安裝與運行Pig 322
執(zhí)行類型 322
運行Pig程序 324
Grunt 324
Pig Latin編輯器 325
示例 325
生成示例 327
與數(shù)據(jù)庫比較 328
PigLatin 330
結(jié)構(gòu) 330
語句 331
表達式 335
1.4.4  類型 336
模式 338
函數(shù) 342
用戶自定義函數(shù) 343
過濾UDF 343
計算UDF 347
加載UDF 348
數(shù)據(jù)處理操作 351
加載和存儲數(shù)據(jù) 351
過濾數(shù)據(jù) 352
分組與連接數(shù)據(jù) 354
對數(shù)據(jù)進行排序 359
組合和分割數(shù)據(jù) 360
Pig實戰(zhàn) 361
并行處理 361
參數(shù)代換 362
第12章  Hive 365
1.1  安裝Hive 366
1.1.1  Hive外殼環(huán)境 367
1.2  示例 368
1.3  運行Hive 369
1.3.1  配置Hive 369
1.3.2  Hive服務(wù) 371
1.3.3  Metastore 373
1.4   和傳統(tǒng)數(shù)據(jù)庫進行比較 375
1.4.1  讀時模式(Schema on Read)vs.寫時模式(Schema  onWrite) 376
1.4.2  更新、事務(wù)和索引 376
1.5  HiveQL 377
1.5.1  數(shù)據(jù)類型 378
1.5.2  操作和函數(shù) 380
1.6  表 381
1.6.1  托管表(Managed  Tables)和外部表(ExternalTables) 381
1.6.2  分區(qū)(Partitions)和桶(Buckets) 383
1.6.3  存儲格式 387
1.6.4  導(dǎo)入數(shù)據(jù) 392
1.6.5  表的修改 394
1.6.6  表的丟棄 395
1.7  查詢數(shù)據(jù) 395
1.7.1  排序(Sorting)和聚集(Aggregating) 395
1.7.2  MapReduce腳本 396
1.7.3  連接 397
1.7.4  子查詢 400
1.7.5  視圖(view) 401
1.8  用戶定義函數(shù)(User-Defined Functions) 402
1.8.1  編寫UDF 403
1.8.2  編寫UDAF 405
第13章  HBase 411
2.1  HBasics 411
2.1.1  背景 412
2.2  概念 412
2.2.1  數(shù)據(jù)模型的“旋風之旅” 412
2.2.2  實現(xiàn) 413
2.3  安裝 416
2.3.1  測試驅(qū)動 417
2.4  客戶機 419
2.4.1  Java 419
2.4.2  Avro,REST,以及Thrift 422
2.5  示例 423
2.5.1  模式 424
2.5.2  加載數(shù)據(jù) 425
2.5.3  Web查詢 428
2.6  HBase和RDBMS的比較 431
2.6.1  成功的服務(wù) 432
2.6.2  HBase 433
2.6.3  實例:HBase在Streamy.com的使用 433
2.7  Praxis 435
2.7.1  版本 435
2.7.2  HDFS 436
2.7.3  用戶接口(UI) 437
2.7.4  度量(metrics) 437
2.7.5  模式設(shè)計 438
2.7.6  計數(shù)器 438
2.7.7  批量加載(bulkloading) 439
第14章  ZooKeeper 441
安裝和運行ZooKeeper 442
示例 443
ZooKeeper中的組成員關(guān)系 444
創(chuàng)建組 444
加入組 447
列出組成員 448
ZooKeeper服務(wù) 451
數(shù)據(jù)模型 451
操作 453
實現(xiàn) 457
一致性 458
會話 460
狀態(tài) 462
使用ZooKeeper來構(gòu)建應(yīng)用 463
配置服務(wù) 463
具有可恢復(fù)性的ZooKeeper應(yīng)用 466
鎖服務(wù) 470
生產(chǎn)環(huán)境中的ZooKeeper 473
可恢復(fù)性和性能 473
配置 474
第15章  開源工具Sqoop 477
獲取Sqoop 477
一個導(dǎo)入的例子 479
生成代碼 482
其他序列化系統(tǒng) 482
深入了解數(shù)據(jù)庫導(dǎo)入 483
導(dǎo)入控制 485
導(dǎo)入和一致性 485
直接模式導(dǎo)入 485
使用導(dǎo)入的數(shù)據(jù) 486
導(dǎo)入的數(shù)據(jù)與Hive 487
導(dǎo)入大對象 489
執(zhí)行導(dǎo)出 491
深入了解導(dǎo)出 493
導(dǎo)出與事務(wù) 494
導(dǎo)出和SequenceFile 494
第16章  實例分析 497
Hadoop 在Last.fm的應(yīng)用 497
Last.fm:社會音樂史上的革命 497
Hadoop a Last.fm 497
用Hadoop產(chǎn)生圖表 498
Track Statistics程序 499
總結(jié) 506
Hadoop和Hive在Facebook的應(yīng)用 506
概要介紹 506
Hadoop a Facebook 506
假想的使用情況案例 509
Hive 512
問題與未來工作計劃 516
Nutch 搜索引擎 517
背景介紹 517
數(shù)據(jù)結(jié)構(gòu) 518
Nutch系統(tǒng)利用Hadoop進行數(shù)據(jù)處理的精選實例 521
總結(jié) 530
Rackspace的日志處理 531
簡史 532
選擇Hadoop 532
收集和存儲 532
日志的MapReduce模型 533
關(guān)于Cascading 539
字段、元組和管道 540
操作 542
Tap類,Scheme對象和Flow對象 544
Cascading實戰(zhàn) 545
靈活性 548
Hadoop和Cascading在ShareThis的應(yīng)用 549
總結(jié) 552
在Apache Hadoop上的TB字節(jié)數(shù)量級排序 553
使用Pig和Wukong來探索10億數(shù)量級邊的 網(wǎng)絡(luò)圖 556
測量社區(qū) 558
每個人都在和我說話:Twitter回復(fù)關(guān)系圖 558
degree(度) 560
對稱鏈接 561
社區(qū)提取 562
附錄A  安裝Apache Hadoop 565
先決條件 565
安裝 565
配置 566
本機模式 567
偽分布模式 567
全分布模式 569
附錄B  Cloudera’s Distribution  for Hadoop 571
附錄C  準備NCDC天氣數(shù)據(jù) 573
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號