Hadoop大數(shù)據(jù)技術(shù)開發(fā)實(shí)戰(zhàn)

定　價(jià)：￥99.00

作　者：	張偉洋著
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787302534020	出版時(shí)間：	2019-09-01	包裝：	平裝
開本：	16	頁數(shù)：	462	字?jǐn)?shù)：

內(nèi)容簡介

　　本書以Hadoop及其周邊框架為主線，介紹了整個(gè)Hadoop生態(tài)系統(tǒng)主流的大數(shù)據(jù)開發(fā)技術(shù)。全書共16章，第1章講解了VMware中CentOS 7操作系統(tǒng)的安裝；第2章講解了大數(shù)據(jù)開發(fā)之前對(duì)操作系統(tǒng)集群環(huán)境的配置；第3~16章講解了Hadoop生態(tài)系統(tǒng)各框架HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和數(shù)據(jù)實(shí)時(shí)處理系統(tǒng)Flume、Kafka、Storm、Spark以及分布式搜索系統(tǒng)Elasticsearch等的基礎(chǔ)知識(shí)、架構(gòu)原理、集群環(huán)境搭建，同時(shí)包括常用的Shell命令、API操作、源碼剖析，并通過實(shí)際案例加深對(duì)各個(gè)框架的理解與應(yīng)用。通過閱讀本書，讀者即使沒有任何大數(shù)據(jù)基礎(chǔ)，也可以對(duì)照書中的步驟成功搭建屬于自己的大數(shù)據(jù)集群并獨(dú)立完成項(xiàng)目開發(fā)。本書可作為Hadoop新手入門的指導(dǎo)書，也可作為大數(shù)據(jù)開發(fā)人員的隨身手冊(cè)以及大數(shù)據(jù)從業(yè)者的參考用書。

作者簡介

　　張偉洋，畢業(yè)于中國地質(zhì)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)，先后就職于知名互聯(lián)網(wǎng)公司百度、慧聰網(wǎng)，任Java高級(jí)軟件工程師，互聯(lián)網(wǎng)旅游公司任軟件研發(fā)事業(yè)部技術(shù)經(jīng)理。目前供職于青島英谷教育科技股份有限公司，任大數(shù)據(jù)項(xiàng)目講師，為數(shù)十所高校先后舉行多次大數(shù)據(jù)專題講座，對(duì)Hadoop及周邊框架ZooKeeper、Hive、HBase、Storm、Spark等有深入的研究。高等院校云計(jì)算與大數(shù)據(jù)專業(yè)課改教材《云計(jì)算與大數(shù)據(jù)概論》《大數(shù)據(jù)開發(fā)與應(yīng)用》的主要編寫者，百度文庫、百度閱讀簽約作者。

圖書目錄

目錄
第1章 VMware中安裝CentOS 7 1
1.1 下載CENTOS 7鏡像文件 1
1.2 新建虛擬機(jī) 5
1.3 安裝操作系統(tǒng) 9
第2章 CentOS 7集群環(huán)境配置 16
2.1 系統(tǒng)環(huán)境配置 16
2.1.1 新建用戶 17
2.1.2 修改用戶權(quán)限 17
2.1.3 關(guān)閉防火墻 17
2.1.4 設(shè)置固定IP 18
2.1.5 修改主機(jī)名 22
2.1.6 新建資源目錄 23
2.2 安裝JDK 23
2.3 克隆虛擬機(jī) 25
2.4 配置主機(jī)IP映射 29
第3章 Hadoop 31
3.1 HADOOP簡介 31
3.1.1 Hadoop生態(tài)系統(tǒng)架構(gòu) 32
3.1.2 Hadoop 1.x與2.x的架構(gòu)對(duì)比 33
3.2 YARN基本架構(gòu)及組件 34
3.3 YARN工作流程 37
3.4 配置集群各節(jié)點(diǎn)SSH無密鑰登錄 38
3.4.1 無密鑰登錄原理 38
3.4.2 無密鑰登錄操作步驟 39
3.5 搭建HADOOP 2.X分布式集群 41
第4章 HDFS 48
4.1 HDFS簡介 48
4.1.1 設(shè)計(jì)目標(biāo) 49
4.1.2 總體架構(gòu) 49
4.1.3 主要組件 50
4.1.4 文件讀寫 53
4.2 HDFS命令行操作 54
4.3 HDFS WEB界面操作 57
4.4 HDFS JAVA API操作 59
4.4.1 讀取數(shù)據(jù) 59
4.4.2 創(chuàng)建目錄 61
4.4.3 創(chuàng)建文件 62
4.4.4 刪除文件 63
4.4.5 遍歷文件和目錄 64
4.4.6 獲取文件或目錄的元數(shù)據(jù) 65
4.4.7 上傳本地文件 66
4.4.8 下載文件到本地 66
第5章 MapReduce 68
5.1 MAPREDUCE簡介 68
5.1.1 設(shè)計(jì)思想 69
5.1.2 任務(wù)流程 70
5.1.3 工作原理 71
5.2 MAPREDUCE程序編寫步驟 74
5.3 案例分析：單詞計(jì)數(shù) 76
5.4 案例分析：數(shù)據(jù)去重 82
5.5 案例分析：求平均分 86
5.6 案例分析：二次排序 89
5.7 使用MRUNIT測(cè)試MAPREDUCE程序 97
第6章 ZooKeeper 100
6.1 ZOOKEEPER簡介 100
6.1.1 應(yīng)用場(chǎng)景 101
6.1.2 架構(gòu)原理 101
6.1.3 數(shù)據(jù)模型 102
6.1.4 節(jié)點(diǎn)類型 103
6.1.5 Watcher機(jī)制 103
6.1.6 分布式鎖 105
6.2 ZOOKEEPER安裝配置 106
6.2.1 單機(jī)模式 106
6.2.2 偽分布模式 108
6.2.3 集群模式 109
6.3 ZOOKEEPER命令行操作 112
6.4 ZOOKEEPER JAVA API操作 114
6.4.1 創(chuàng)建Java工程 114
6.4.2 創(chuàng)建節(jié)點(diǎn) 115
6.4.3 修改數(shù)據(jù) 118
6.4.4 獲取數(shù)據(jù) 118
6.4.5 刪除節(jié)點(diǎn) 123
6.5 案例分析：監(jiān)聽服務(wù)器動(dòng)態(tài)上下線 124
第7章 HDFS與YARN HA 129
7.1 HDFS HA搭建 129
7.1.1 架構(gòu)原理 130
7.1.2 搭建步驟 131
7.1.3 結(jié)合ZooKeeper進(jìn)行HDFS自動(dòng)故障轉(zhuǎn)移 137
7.2 YARN HA搭建 142
7.2.1 架構(gòu)原理 142
7.2.2 搭建步驟 142
第8章 HBase 147
8.1 什么是HBASE 147
8.2 HBASE基本結(jié)構(gòu) 148
8.3 HBASE數(shù)據(jù)模型 149
8.4 HBASE集群架構(gòu) 151
8.5 HBASE安裝配置 153
8.5.1 單機(jī)模式 153
8.5.2 偽分布模式 155
8.5.3 集群模式 156
8.6 HBASE SHELL命令操作 160
8.7 HBASE JAVA API操作 164
8.7.1 創(chuàng)建Java工程 164
8.7.2 創(chuàng)建表 164
8.7.3 添加數(shù)據(jù) 166
8.7.4 查詢數(shù)據(jù) 168
8.7.5 刪除數(shù)據(jù) 169
8.8 HBASE過濾器 170
8.9 案例分析：HBASE MAPREDUCE數(shù)據(jù)轉(zhuǎn)移 174
8.9.1 HBase不同表間數(shù)據(jù)轉(zhuǎn)移 174
8.9.2 HDFS數(shù)據(jù)轉(zhuǎn)移至HBase 180
8.10 案例分析：HBASE數(shù)據(jù)備份與恢復(fù) 183
第9章 Hive 185
9.1 什么是HIVE 185
9.1.1 數(shù)據(jù)單元 186
9.1.2 數(shù)據(jù)類型 187
9.2 HIVE架構(gòu)體系 189
9.3 HIVE三種運(yùn)行模式 190
9.4 HIVE安裝配置 191
9.4.1 內(nèi)嵌模式 192
9.4.2 本地模式 195
9.4.3 遠(yuǎn)程模式 198
9.5 HIVE常見屬性配置 200
9.6 BEELINE CLI的使用 201
9.7 HIVE數(shù)據(jù)庫操作 205
9.8 HIVE表操作 208
9.8.1 內(nèi)部表 209
9.8.2 外部表 213
9.8.3 分區(qū)表 215
9.8.4 分桶表 219
9.9 HIVE查詢 223
9.9.1 SELECT子句查詢 224
9.9.2 JOIN連接查詢 230
9.10 其他HIVE命令 233
9.11 HIVE元數(shù)據(jù)表結(jié)構(gòu)分析 235
9.12 HIVE自定義函數(shù) 237
9.13 HIVE JDBC操作 239
9.14 案例分析：HIVE與HBASE整合 242
9.15 案例分析：HIVE分析搜狗用戶搜索日志 246
第10章 Sqoop 251
10.1 什么是SQOOP 251
10.1.1 Sqoop基本架構(gòu) 252
10.1.2 Sqoop開發(fā)流程 252
10.2 使用SQOOP 253
10.3 數(shù)據(jù)導(dǎo)入工具 254
10.4 數(shù)據(jù)導(dǎo)出工具 259
10.5 SQOOP安裝與配置 261
10.6 案例分析：將MYSQL表數(shù)據(jù)導(dǎo)入到HDFS中 262
10.7 案例分析：將HDFS中的數(shù)據(jù)導(dǎo)出到MYSQL中 263
10.8 案例分析：將MYSQL表數(shù)據(jù)導(dǎo)入到HBASE中 264
第11章 Kafka 267
11.1 什么是KAFKA 267
11.2 KAFKA架構(gòu) 268
11.3 主題與分區(qū) 269
11.4 分區(qū)副本 271
11.5 消費(fèi)者組 273
11.6 數(shù)據(jù)存儲(chǔ)機(jī)制 274
11.7 集群環(huán)境搭建 276
11.8 命令行操作 278
11.8.1 創(chuàng)建主題 278
11.8.2 查詢主題 279
11.8.3 創(chuàng)建生產(chǎn)者 280
11.8.4 創(chuàng)建消費(fèi)者 280
11.9 JAVA API操作 281
11.9.1 創(chuàng)建Java工程 281
11.9.2 創(chuàng)建生產(chǎn)者 281
11.9.3 創(chuàng)建消費(fèi)者 283
11.9.4 運(yùn)行程序 285
11.10 案例分析：KAFKA生產(chǎn)者攔截器 287
第12章 Flume 294
12.1 什么是FLUME 294
12.2 架構(gòu)原理 295
12.2.1 單節(jié)點(diǎn)架構(gòu) 295
12.2.2 組件介紹 296
12.2.3 多節(jié)點(diǎn)架構(gòu) 297
12.3 安裝與簡單使用 299
12.4 案例分析：日志監(jiān)控（一） 302
12.5 案例分析：日志監(jiān)控（二） 304
12.6 攔截器 306
12.6.1 內(nèi)置攔截器 307
12.6.2 自定義攔截器 310
12.7 選擇器 313
12.8 案例分析：攔截器和選擇器的應(yīng)用 315
12.9 案例分析：FLUME與KAFKA整合 319
第13章 Storm 322
13.1 什么是STORM 322
13.2 STORM TOPOLOGY 323
13.3 STORM集群架構(gòu) 324
13.4 STORM流分組 326
13.5 STORM集群環(huán)境搭建 329
13.6 案例分析：單詞計(jì)數(shù) 332
13.6.1 設(shè)計(jì)思路 332
13.6.2 代碼編寫 333
13.6.3 程序運(yùn)行 339
13.7 案例分析：STORM與KAFKA整合 341
第14章 Elasticsearch 347
14.1 什么是ELASTICSEARCH 347
14.2 基本概念 348
14.2.1 索引、類型和文檔 348
14.2.2 分片和副本 348
14.2.3 路由 349
14.3 集群架構(gòu) 350
14.4 集群環(huán)境搭建 352
14.5 KIBANA安裝 355
14.6 REST API 357
14.6.1 集群狀態(tài)API 357
14.6.2 索引API 358
14.6.3 文檔API 360
14.6.4 搜索API 363
14.6.5 Query DSL 365
14.7 HEAD插件安裝 371
14.8 JAVA API操作：員工信息 375
第15章 Scala 379
15.1 什么是SCALA 379
15.2 安裝SCALA 380
15.2.1 Windows中安裝Scala 380
15.2.2 CentOS 7中安裝Scala 381
15.3 SCALA基礎(chǔ) 382
15.3.1 變量聲明 382
15.3.2 數(shù)據(jù)類型 383
15.3.3 表達(dá)式 385
15.3.4 循環(huán) 386
15.3.5 方法與函數(shù) 388
15.4 集合 391
15.4.1 數(shù)組 391
15.4.2 List 393
15.4.3 Map映射 394
15.4.4 元組 396
15.4.5 Set 396
15.5 類和對(duì)象 398
15.5.1 類的定義 398
15.5.2 單例對(duì)象 399
15.5.3 伴生對(duì)象 399
15.5.4 get和set方法 400
15.5.5 構(gòu)造器 402
15.6 抽象類和特質(zhì) 404
15.6.1 抽象類 404
15.6.2 特質(zhì) 406
15.7 使用ECLIPSE創(chuàng)建SCALA項(xiàng)目 408
15.7.1 安裝Scala for Eclipse IDE 408
15.7.2 創(chuàng)建Scala項(xiàng)目 409
15.8 使用INTELLIJ IDEA創(chuàng)建SCALA項(xiàng)目 410
15.8.1 IDEA中安裝Scala插件 410
15.8.2 創(chuàng)建Scala項(xiàng)目 414
第16章 Spark 416
16.1 SPARK概述 416
16.2 SPARK主要組件 417
16.3 SPARK運(yùn)行時(shí)架構(gòu) 419
16.3.1 Spark Standalone模式 419
16.3.2 Spark On YARN模式 421
16.4 SPARK集群環(huán)境搭建 423
16.4.1 Spark Standalone模式 423
16.4.2 Spark On YARN模式 425
16.5 SPARK HA搭建 426
16.6 SPARK應(yīng)用程序的提交 430
16.7 SPARK SHELL的使用 433
16.8 SPARK RDD 435
16.8.1 創(chuàng)建RDD 435
16.8.2 RDD算子 436
16.9 案例分析：使用SPARK RDD實(shí)現(xiàn)單詞計(jì)數(shù) 441
16.10 SPARK SQL 448
16.10.1 DataFrame和Dataset 448
16.10.2 Spark SQL基本使用 449
16.11 案例分析：使用SPARK SQL實(shí)現(xiàn)單詞計(jì)數(shù) 452
16.12 案例分析：SPARK SQL與HIVE整合 454
16.13 案例分析：SPARK SQL讀寫MYSQL 457