注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫Hadoop海量數(shù)據(jù)處理

Hadoop海量數(shù)據(jù)處理

Hadoop海量數(shù)據(jù)處理

定 價(jià):¥99.80

作 者: 許政
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302666943 出版時(shí)間: 2024-08-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  《Hadoop海量數(shù)據(jù)處理》從Hadoop的基礎(chǔ)知識講起,逐步深入Hadoop分布式文件系統(tǒng)(HDFS)和MapReduce分布式編程框架的核心技術(shù),幫助讀者全面、系統(tǒng)、深入地理解Hadoop海量數(shù)據(jù)處理技術(shù)的精髓。本書在講解技術(shù)原理時(shí)穿插大量的典型示例,并詳解兩個(gè)典型項(xiàng)目實(shí)戰(zhàn)案例,幫助讀者提高實(shí)際項(xiàng)目開發(fā)水平?!禜adoop海量數(shù)據(jù)處理》共15章,分為4篇。第1篇Hadoop基礎(chǔ)知識,包括大數(shù)據(jù)概述、Hadoop概述、Hadoop環(huán)境搭建與配置;第2篇Hadoop分布式存儲技術(shù),包括HDFS概述、HDFS基礎(chǔ)操作、HDFS的讀寫原理和工作機(jī)制、Hadoop 3.x的新特性;第3篇MapReduce分布式編程框架,包括MapReduce概述、MapReduce開發(fā)基礎(chǔ)、MapReduce框架的原理、MapReduce數(shù)據(jù)壓縮、YARN資源調(diào)度器、Hadoop企業(yè)級優(yōu)化;第4篇項(xiàng)目實(shí)戰(zhàn),包括Hadoop高可用集群搭建實(shí)戰(zhàn)和統(tǒng)計(jì)TopN經(jīng)典項(xiàng)目案例實(shí)戰(zhàn)?!禜adoop海量數(shù)據(jù)處理》通俗易懂、案例豐富、實(shí)用性強(qiáng),適合Hadoop初學(xué)者和進(jìn)階人員閱讀,也適合大數(shù)據(jù)工程師、數(shù)據(jù)分析工程師和數(shù)據(jù)科學(xué)家等大數(shù)據(jù)技術(shù)從業(yè)人員和愛好者閱讀,還適合作為高等院校和相關(guān)培訓(xùn)機(jī)構(gòu)的大數(shù)據(jù)教材。

作者簡介

  許政畢業(yè)于哈爾濱工業(yè)大學(xué),獲碩士學(xué)位?,F(xiàn)居深圳,任某一線大廠大數(shù)據(jù)架構(gòu)師。參加工作以來,帶領(lǐng)團(tuán)隊(duì)完成了多個(gè)百億級大數(shù)據(jù)平臺的建設(shè)。在實(shí)時(shí)計(jì)算方面有深厚的實(shí)踐經(jīng)驗(yàn)。熟悉多種大數(shù)據(jù)技術(shù)框架,如Hadoop、Spark、Flink、Elasticsearch、Kafka、HBase、ZooKeeper等。被CSDN評為優(yōu)秀博主,撰寫了大數(shù)據(jù)技術(shù)相關(guān)博文100余篇,博客訪問量高達(dá)240多萬。運(yùn)維自己的獨(dú)立博客網(wǎng)站。在大數(shù)據(jù)實(shí)時(shí)處理技術(shù)和人工智能算法方面有深入的研究,申請發(fā)明專利10余項(xiàng)。

圖書目錄

第1篇  Hadoop基礎(chǔ)知識
第1章  大數(shù)據(jù)概述 2
1.1  大數(shù)據(jù)簡介 2
1.2  大數(shù)據(jù)的特點(diǎn) 2
1.3  大數(shù)據(jù)的發(fā)展前景 3
1.4  大數(shù)據(jù)技術(shù)生態(tài)體系 4
1.4.1  數(shù)據(jù)采集與傳輸類 4
1.4.2  數(shù)據(jù)存儲與管理類 5
1.4.3  資源管理類 5
1.4.4  數(shù)據(jù)計(jì)算類 5
1.4.5  任務(wù)調(diào)度類 6
1.5  大數(shù)據(jù)部門的組織架構(gòu) 6
1.6  小結(jié) 7
第2章  Hadoop概述 8
2.1  Hadoop簡介 8
2.2  Hadoop的發(fā)展歷史 8
2.3  Hadoop的三大發(fā)行版本 9
2.4  Hadoop的優(yōu)勢 10
2.5  Hadoop各版本之間的區(qū)別 10
2.6  Hadoop的組成 11
2.6.1  HDFS架構(gòu)簡介 11
2.6.2  YARN架構(gòu)簡介 12
2.6.3  MapReduce架構(gòu)簡介 13
2.7  小結(jié) 14
第3章  Hadoop環(huán)境搭建與配置 15
3.1  搭建開發(fā)環(huán)境 15
3.1.1  對操作系統(tǒng)的要求 15
3.1.2  對軟件環(huán)境的要求 17
3.1.3  下載和安裝JDK 18
3.1.4  配置JDK環(huán)境變量 19
3.1.5  下載和安裝Hadoop 19
3.1.6  配置Hadoop的環(huán)境變量 19
3.1.7  配置Hadoop的系統(tǒng)參數(shù) 20
3.1.8  解讀Hadoop的目錄結(jié)構(gòu) 21
3.2  配置本地運(yùn)行模式 22
3.2.1  在Linux環(huán)境下運(yùn)行Hadoop官方的Grep案例 22
3.2.2  在Linux環(huán)境下運(yùn)行Hadoop官方的WordCount案例 23
3.2.3  在Windows環(huán)境下搭建Hadoop 23
3.2.4  在Windows環(huán)境下運(yùn)行WordCount案例 25
3.3  配置偽分布式模式 26
3.3.1  啟動HDFS并運(yùn)行MapReduce程序 26
3.3.2  啟動YARN并運(yùn)行MapReduce程序 31
3.3.3  配置歷史服務(wù)器 35
3.3.4  配置日志的聚集功能 36
3.4  配置完全分布式模式 38
3.4.1  分布式集群環(huán)境準(zhǔn)備 39
3.4.2  配置完全分布式集群 42
3.4.3  配置Hadoop集群單點(diǎn)啟動 46
3.4.4  測試完全分布式集群 47
3.4.5  配置Hadoop集群整體啟動 48
3.4.6  配置Hadoop集群時(shí)間同步 50
3.5  小結(jié) 52
第2篇  Hadoop分布式存儲技術(shù)
第4章  HDFS概述 54
4.1  HDFS的背景和定義 54
4.1.1  HDFS產(chǎn)生的背景 54
4.1.2  HDFS的定義 54
4.2  HDFS的優(yōu)缺點(diǎn) 55
4.2.1  HDFS的優(yōu)點(diǎn) 55
4.2.2  HDFS的缺點(diǎn) 56
4.3  HDFS的組成架構(gòu) 56
4.4  設(shè)置HDFS文件塊的大小 58
4.5  小結(jié) 59
第5章  HDFS基礎(chǔ)操作 60
5.1  HDFS的Shell命令操作 60
5.1.1  HDFS的幫助命令 60
5.1.2  顯示HDFS的目錄信息 62
5.1.3  創(chuàng)建HDFS目錄 62
5.1.4  將本地文件復(fù)制到HDFS中 62
5.1.5  將HDFS中的文件復(fù)制到本地文件系統(tǒng)中 63
5.1.6  輸出HDFS文件內(nèi)容 63
5.1.7  追加HDFS文件內(nèi)容 64
5.1.8  修改HDFS文件操作權(quán)限 65
5.1.9  將本地文件移動至HDFS中 65
5.1.10  復(fù)制HDFS文件 66
5.1.11  移動HDFS文件 66
5.1.12  上傳HDFS文件 67
5.1.13  下載HDFS文件 67
5.1.14  刪除文件或目錄 67
5.1.15  批量下載HDFS文件 68
5.1.16  顯示文件的末尾 68
5.1.17  統(tǒng)計(jì)目錄的大小 69
5.1.18  設(shè)置HDFS中的文件副本數(shù)量 69
5.2  HDFS的API調(diào)用操作 69
5.2.1  準(zhǔn)備開發(fā)環(huán)境 69
5.2.2  通過API創(chuàng)建目錄 72
5.2.3  通過API上傳文件 73
5.2.4  通過API下載文件 73
5.2.5  通過API刪除目錄 74
5.2.6  通過API修改文件名稱 74
5.2.7  通過API查看文件詳情 75
5.2.8  通過API判斷文件和目錄 76
5.2.9  通過I/O流上傳文件 77
5.2.10  通過I/O流下載文件 77
5.2.11  通過I/O流定位文件讀取位置 78
5.3  小結(jié) 79
第6章  HDFS的讀寫原理和工作機(jī)制 80
6.1  剖析HDFS的寫數(shù)據(jù)流程 80
6.1.1  剖析文件寫入流程 80
6.1.2  計(jì)算網(wǎng)絡(luò)拓?fù)涔?jié)點(diǎn)的距離 82
6.1.3  機(jī)架感知 83
6.2  剖析HDFS的讀數(shù)據(jù)流程 83
6.3  剖析NameNode和SecondaryNameNode 的工作機(jī)制 85
6.3.1  解析NN和2NN的工作機(jī)制 85
6.3.2  解析FsImage和Edits文件 88
6.3.3  CheckPoint時(shí)間設(shè)置 94
6.3.4  NameNode故障處理 95
6.3.5  集群安全模式 97
6.3.6  NameNode多目錄配置 99
6.4  剖析DataNode 100
6.4.1  解析DataNode的工作機(jī)制 100
6.4.2  保證數(shù)據(jù)的完整性 101
6.4.3  設(shè)置掉線時(shí)限參數(shù) 102
6.4.4  服役新的數(shù)據(jù)節(jié)點(diǎn) 102
6.4.5  退役舊的數(shù)據(jù)節(jié)點(diǎn) 109
6.4.6  DataNode多目錄配置 111
6.5  小結(jié) 112
第7章  Hadoop 3.x的新特性 113
7.1  糾刪碼技術(shù) 113
7.1.1  探究糾刪碼技術(shù)原理 113
7.1.2  簡述糾刪碼模式布局方案 113
7.1.3  解讀糾刪碼策略 114
7.1.4  查看糾刪碼 115
7.1.5  設(shè)置糾刪碼 115
7.2  復(fù)制HDFS集群間的數(shù)據(jù) 116
7.2.1  采用scp實(shí)現(xiàn)HDFS集群間的數(shù)據(jù)復(fù)制 116
7.2.2  采用distcp實(shí)現(xiàn)HDFS集群間的數(shù)據(jù)復(fù)制 116
7.3  解決海量小文件的存儲問題 116
7.3.1  HDFS存儲小文件的弊端 117
7.3.2  將海量小文件存儲為HAR文件 117
7.4  配置HDFS回收站 118
7.4.1  回收站的功能參數(shù)說明 118
7.4.2  解析回收站的工作機(jī)制 119
7.4.3  開啟回收站的功能 119
7.4.4  修改訪問回收站的用戶名稱 119
7.4.5  測試回收站的功能 120
7.4.6  恢復(fù)回收站中的數(shù)據(jù) 120
7.4.7  清空回收站 121
7.5  HDFS快照管理 121
7.6  小結(jié) 122
第3篇  MapReduce分布式編程框架
第8章  MapReduce概述 124
8.1  MapReduce的定義 124
8.2  MapReduce的優(yōu)缺點(diǎn) 124
8.2.1  MapReduce的優(yōu)點(diǎn) 124
8.2.2  MapReduce的缺點(diǎn) 125
8.3  MapReduce的核心編程思想 126
8.3.1  深入理解核心思想 126
8.3.2  MapReduce進(jìn)程解析 128
8.4  官方的WordCount源碼解析 128
8.5  小結(jié) 131
第9章  MapReduce開發(fā)基礎(chǔ) 132
9.1  Hadoop的序列化概述 132
9.1.1  序列化與反序列化的定義 132
9.1.2  進(jìn)行序列化的原因 132
9.1.3  Hadoop序列化的特點(diǎn) 132
9.2  數(shù)據(jù)序列化的類型 132
9.2.1  基本類型 133
9.2.2  集合類型 133
9.2.3  用戶自定義類型 133
9.2.4  序列化類型案例實(shí)戰(zhàn) 134
9.3  如何開發(fā)MapReduce程序 143
9.3.1  MapReduce編程規(guī)范 143
9.3.2  WordCount案例實(shí)戰(zhàn) 144
9.4  小結(jié) 152
第10章  MapReduce框架的原理 153
10.1  InputFormat數(shù)據(jù)輸入解析 153
10.1.1  切片與MapTask的并行度決定機(jī)制 153
10.1.2  FileInputFormat的切片機(jī)制解析 154
10.1.3  CombineTextInputFormat的切片機(jī)制 155
10.1.4  CombineTextInputFormat案例實(shí)戰(zhàn) 157
10.1.5  歸納FileInputFormat的其他子類 165
10.1.6  KeyValueTextInputFormat案例實(shí)戰(zhàn) 167
10.1.7  NLineInputFormat案例實(shí)戰(zhàn) 175
10.1.8  自定義InputFormat案例實(shí)戰(zhàn) 184
10.2  解析MapReduce的工作流程 194
10.3  剖析Shuffle的工作機(jī)制 198
10.3.1  Shuffle機(jī)制簡介 198
10.3.2  Partition分區(qū)簡介 199
10.3.3  Partition分區(qū)案例實(shí)戰(zhàn) 199
10.3.4  WritableComparable排序簡介 210
10.3.5  WritableComparable全排序案例實(shí)戰(zhàn) 211
10.3.6  WritableComparable區(qū)內(nèi)排序案例實(shí)戰(zhàn) 221
10.3.7  Combiner合并簡介 230
10.3.8  Combiner合并案例實(shí)戰(zhàn) 231
10.3.9  GroupingComparator分組簡介 238
10.3.10  GroupingComparator分組案例實(shí)戰(zhàn) 238
10.4  剖析MapTask的工作機(jī)制 247
10.5  剖析ReduceTask的工作機(jī)制 248
10.6  OutputFormat數(shù)據(jù)輸出類詳解 249
10.6.1  OutputFormat接口實(shí)現(xiàn)類簡介 250
10.6.2  自定義OutputFormat接口實(shí)現(xiàn)類案例實(shí)戰(zhàn) 250
10.7  Join的多種應(yīng)用 258
10.7.1  Reduce Join案例實(shí)戰(zhàn) 258
10.7.2  Map Join案例實(shí)戰(zhàn) 267
10.8  小結(jié) 277
第11章  MapReduce數(shù)據(jù)壓縮 278
11.1  數(shù)據(jù)壓縮概述 278
11.2  MapReduce支持的壓縮編碼器 278
11.3  選擇壓縮方式 279
11.3.1  Gzip壓縮 280
11.3.2  Bzip2壓縮 280
11.3.3  LZO壓縮 280
11.3.4  Snappy壓縮 280
11.4  配置壓縮參數(shù) 281
11.5  壓縮實(shí)戰(zhàn)案例 281
11.5.1  實(shí)現(xiàn)數(shù)據(jù)流的壓縮和解壓縮 281
11.5.2  實(shí)現(xiàn)Map輸出端壓縮 285
11.5.3  實(shí)現(xiàn)Reduce輸出端壓縮 287
11.6  小結(jié) 290
第12章  YARN資源調(diào)度器 291
12.1  解析YARN的基本架構(gòu) 291
12.2  剖析YARN的工作機(jī)制 292
12.3  作業(yè)提交全過程 295
12.4  資源調(diào)度器的分類 296
12.5  任務(wù)的推測執(zhí)行 298
12.6  小結(jié) 299
第13章  Hadoop企業(yè)級優(yōu)化 300
13.1  HDFS優(yōu)化 300
13.2  MapReduce優(yōu)化 301
13.2.1  剖析MapReduce程序運(yùn)行慢的原因 301
13.2.2  MapReduce的優(yōu)化方法 302
13.3  小結(jié) 304
第4篇  項(xiàng)目實(shí)戰(zhàn)
第14章  Hadoop高可用集群搭建實(shí)戰(zhàn) 306
14.1  HA高可用簡介 306
14.2  HDFS-HA的工作機(jī)制 307
14.2.1  HDFS-HA的工作要點(diǎn) 307
14.2.2  HDFS-HA的自動故障轉(zhuǎn)移工作機(jī)制 308
14.3  搭建HDFS-HA集群 310
14.3.1  準(zhǔn)備集群環(huán)境 310
14.3.2  規(guī)劃集群節(jié)點(diǎn) 312
14.3.3  下載和安裝JDK 313
14.3.4  配置JDK環(huán)境變量 313
14.3.5  安裝ZooKeeper集群 314
14.3.6  配置ZooKeeper集群 314
14.3.7  啟動ZooKeeper集群 315
14.3.8  配置HDFS-HA集群 316
14.3.9  配置HDFS-HA自動故障轉(zhuǎn)移 319
14.4  搭建YARN-HA集群 320
14.4.1  YARN-HA集群的工作機(jī)制 320
14.4.2  配置YARN-HA集群 321
14.5  小結(jié) 323
第15章  統(tǒng)計(jì)TopN經(jīng)典項(xiàng)目案例實(shí)戰(zhàn) 324
15.1  項(xiàng)目案例構(gòu)建流程 324
15.1.1  創(chuàng)建輸入文件 324
15.1.2  搭建一個(gè)Maven工程 325
15.1.3  定義序列化對象 329
15.1.4  編寫Mapper文件 330
15.1.5  編寫Reducer文件 332
15.1.6  編寫Driver文件 333
15.1.7  打包Maven工程 334
15.1.8  啟動Hadoop集群 334
15.1.9  運(yùn)行TopN程序 335
15.2  小結(jié) 336
  
Hadoop海量數(shù)據(jù)處理:技術(shù)原理與項(xiàng)目實(shí)踐
  
目錄
  
·VI·
  
  
·XI·
  
  
  
  
  
  

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號